
AniPortrait是一个由腾讯推出的音频驱动的肖像动画合成框架,能够根据音频和静态人脸图片生成逼真的动态视频。它利用音频文件驱动,生成逼真的肖像动画。用户可以通过提供一个音频文件和一张参考的肖像图片,让AniPortrait根据音频中的语音和声音的节奏来动态地生成说话或表情变化的肖像动画。此外,它还支持面部再现功能,通过分析给定视频中的面部表情和动作,可以在另一张参考肖像上再现相同的表情和动作。
AniPortrait包含两个主要模块:Audio2Lmk和Lmk2Video。Audio2Lmk模块从音频输入中提取一系列landmarks,捕捉复杂的面部表情和嘴唇动作;而Lmk2Video模块则利用这个具有里程碑意义的序列来生成具有时间稳定性的高质量人像视频。
项目地址:
文章地址:https://arxiv.org/abs/2403.17694
项目代码:https://github.com/Zejun-Yang/AniPortrait
AniPortrait的功能特点
- 音频驱动的动画生成:AniPortrait能够根据输入的音频文件,自动提取其中的语音和声音节奏,进而驱动静态的人脸图片生成动态的肖像动画。这种音频驱动的方式为用户提供了便捷的操作体验,无需复杂的动画编辑技能即可生成逼真的肖像动画。
- 逼真的面部表情和动作:通过先进的算法和技术,AniPortrait能够准确地捕捉音频中的语音和声音变化,并映射到人脸图片上,生成与音频内容相匹配的面部表情和动作。这使得生成的动画看起来更加自然、生动,增强了观看者的沉浸感和代入感。
- 面部再现功能:除了根据音频生成动画外,AniPortrait还支持面部再现功能。它通过分析给定视频中的面部表情和动作,可以在另一张参考肖像上精确地再现相同的表情和动作。这种功能为用户提供了更多的创意空间,可以将不同人物的面部表情和动作应用到其他肖像上,创造出丰富多样的动画效果。
- 高质量的视频输出:AniPortrait注重生成的动画视频质量,通过优化算法和参数设置,确保输出的视频具有清晰、流畅的画面和稳定的帧率。这使得生成的动画视频不仅看起来逼真,而且在播放过程中也不会出现卡顿或抖动等问题。
- 易用性和灵活性:AniPortrait具有直观的用户界面和简洁的操作流程,使用户能够轻松上手并快速完成肖像动画的生成。同时,它还提供了丰富的参数设置和调整选项,允许用户根据具体需求进行个性化定制,以满足不同场景和风格的需求。
AniPortrait技术原理
AniPortrait包含两个模块,即Audio2Lmk和Lmk2Video。Audio2Lmk旨在从音频输入中提取一系列landmarks,捕捉复杂的面部表情和嘴唇动作。Lmk2Video利用这个具有里程碑意义的序列来生成具有时间稳定性的高质量人像视频。整体框架如下:
AniPortrait整体框架
(第一阶段从音频中提取三维面部网格和头部姿态,然后将这两个元素投影到二维关键点上,第二阶段利用扩散模型将2D关键点转换为人像视频)
2.1 Audio2Lmk
同时使用预训练的wav2vec来提取音频特征。wav2vec该模型具有高度的泛化性,能够准确地识别语音和语调,这对于生成逼真的面部动画起着关键作用。通过利用所获得的鲁棒语音特征,可以有效地采用由两个fc层组成的简单架构将这些特征转换为3D面部网格。这种简单的设计不仅保证了准确性,而且提高了推理过程的效率。
在将音频转换为姿态的任务中,使用相同的wav2vec网络作为主干,但是不与audio-to-mesh共享权重。这是因为姿势与音频中的节奏和音调联系更紧密,这与音频到网格任务的重点不同。为了考虑先前状态的影响,我们使用transformer解码器来解码姿势序列。在此过程中,音频特征通过交叉注意机制集成到解码器中,上述两个模块使用简单的L1损失来训练
在获得网格和姿态序列后,使用透视投影将它们转换为二维面部landmarks序列。这些landmarks随后被用作下一阶段的输入信号。
2.2 Lmk2Video
与AnimateAnyone不同的是,Lmk2Video增强了poseguide设计的复杂性。原始版本仅包含几个卷积层,之后landmark特征与骨干输入层的潜在特征合并。实验发现,这种基本的设计在捕捉嘴唇的复杂运动方面是不够的。因此,最终采用ControlNet的多尺度策略,将相应尺度的landmark特征整合到主干的不同块中。
此外引入了一个额外的改进:包含参考图像的landmark作为额外的输入。PoseGuider的交叉注意模块促进了参考landmark和每帧目标landmark之间的交互。这个过程为网络提供了额外的线索来理解面部landmark和外观之间的相关性,从而帮助生成具有更精确运动的肖像动画。
AniPortrait效果展示
用户提供一个音频文件和一张参考的肖像图片实现动画生成。
https://img.pidoutv.com/wp-content/uploads/2024/03/316711426-51a502d9-1ce2-48d2-afbe-767a0b9b9166.mp4
用户提供一段视频,实现在新的肖像上复现视频中人物的面部表情和动作。
https://img.pidoutv.com/wp-content/uploads/2024/03/316711084-849fce22-0db1-4257-a75f-a5dc655e6b9e.mp4
数据统计
相关导航

NeverEnds是一个AI视频制作工具,它能够根据文本和图片生成视频。最新版本的NeverEnds 2.0增加了图生视频功能,并支持手机端体验。该工具在动漫、广告视频等领域表现出色,能够通过高品质的商品图片生成高品质的广告视频。

怪兽AI数字人
怪兽AI数字人是什么 怪兽AI...

AI功夫视频生成器
AI功夫视频生成器是一个有趣且简单的工具,可以在几秒钟内将您的照片转换成真实的动态武术视频。通过智能算法,该平台支持多种武术风格,无论是强大快速的少林功夫,柔和战略性的太极拳,灵活多变的峨眉剑法,还是注重近身搏击的咏春拳,AI功夫生成器都能让您的视频栩栩如生。

爱推文
爱推文是一个利用AI绘画帮助用户通过一键将小说推文转化成漫画视频解说进行快速变现的工具。与传统的自动混剪工具不同,爱推文的素材基于机器生成,百分百保证原创。

Character-1
Character-1 是Hedra Labs推出的人物角色视频生成工具,它可以通过文本和图片生成唱歌视频。它是一个全新的创作平台,为用户提供了无限的视频创作机会。在Hedra的世界里,用户可以成为造物主,创作出丰富多彩的世界、角色和故事,拥有完全的创作控制权。

Descript
Descript是一个基于AI的音视频编辑工具,它可以让你像编辑文档一样编辑视频和音频。你可以通过文字来控制视频和音频的内容,无需剪切和粘贴。你还可以利用人工智能生成超真实的语音克隆,实现文字转语音。Descript还提供了一系列的工具,让你可以轻松地去除背景噪音和背景图像,制作视频和音频片段,添加字幕和模板,以及发布和分享你的作品。

美图MoKi
美图MoKi是美图公司推出的一款AI短片创作工具。它能够在用户完成脚本、视觉风格、角色等前期设定后,自动生成分镜图并转换为视频素材。此外,MoKi还提供智能剪辑、AI配乐、AI音效和自动字幕等功能,帮助用户串联素材并制作成短片。

WUI.AI
WUI.AI是一款人工智能视频编辑工具,专为视频创作者、播客制作者和社交媒体营销人员设计。该平台通过强大的 AI 技术,将长格式视频转化为适合 TikTok、Instagram、YouTube Shorts 等平台的短视频,帮助用户快速、高效地创作引人注目的内容。
暂无评论...