
AniPortrait是一个由腾讯推出的音频驱动的肖像动画合成框架,能够根据音频和静态人脸图片生成逼真的动态视频。它利用音频文件驱动,生成逼真的肖像动画。用户可以通过提供一个音频文件和一张参考的肖像图片,让AniPortrait根据音频中的语音和声音的节奏来动态地生成说话或表情变化的肖像动画。此外,它还支持面部再现功能,通过分析给定视频中的面部表情和动作,可以在另一张参考肖像上再现相同的表情和动作。 AniPortrait包含两个主要模块:Audio2Lmk和Lmk2Video。Audio2Lmk模块从音频输入中提取一系列landmarks,捕捉复杂的面部表情和嘴唇动作;而Lmk2Video模块则利用这个具有里程碑意义的序列来生成具有时间稳定性的高质量人像视频。 项目地址: 文章地址:https://arxiv.org/abs/2403.17694 项目代码:https://github.com/Zejun-Yang/AniPortrait AniPortrait的功能特点 音频驱动的动画生成:AniPortrait能够根据输入的音频文件,自动提取其中的语音和声音节奏,进而驱动静态的人脸图片生成动态的肖像动画。这种音频驱动的方式为用户提供了便捷的操作体验,无需复杂的动画编辑技能即可生成逼真的肖像动画。 逼真的面部表情和动作:通过先进的算法和技术,AniPortrait能够准确地捕捉音频中的语音和声音变化,并映射到人脸图片上,生成与音频内容相匹配的面部表情和动作。这使得生成的动画看起来更加自然、生动,增强了观看者的沉浸感和代入感。 面部再现功能:除了根据音频生成动画外,AniPortrait还支持面部再现功能。它通过分析给定视频中的面部表情和动作,可以在另一张参考肖像上精确地再现相同的表情和动作。这种功能为用户提供了更多的创意空间,可以将不同人物的面部表情和动作应用到其他肖像上,创造出丰富多样的动画效果。 高质量的视频输出:AniPortrait注重生成的动画视频质量,通过优化算法和参数设置,确保输出的视频具有清晰、流畅的画面和稳定的帧率。这使得生成的动画视频不仅看起来逼真,而且在播放过程中也不会出现卡顿或抖动等问题。 易用性和灵活性:AniPortrait具有直观的用户界面和简洁的操作流程,使用户能够轻松上手并快速完成肖像动画的生成。同时,它还提供了丰富的参数设置和调整选项,允许用户根据具体需求进行个性化定制,以满足不同场景和风格的需求。 AniPortrait技术原理 AniPortrait包含两个模块,即Audio2Lmk和Lmk2Video。Audio2Lmk旨在从音频输入中提取一系列landmarks,捕捉复杂的面部表情和嘴唇动作。Lmk2Video利用这个具有里程碑意义的序列来生成具有时间稳定性的高质量人像视频。整体框架如下: AniPortrait整体框架 (第一阶段从音频中提取三维面部网格和头部姿态,然后将这两个元素投影到二维关键点上,第二阶段利用扩散模型将2D关键点转换为人像视频) 2.1 Audio2Lmk 同时使用预训练的wav2vec来提取音频特征。wav2vec该模型具有高度的泛化性,能够准确地识别语音和语调,这对于生成逼真的面部动画起着关键作用。通过利用所获得的鲁棒语音特征,可以有效地采用由两个fc层组成的简单架构将这些特征转换为3D面部网格。这种简单的设计不仅保证了准确性,而且提高了推理过程的效率。 在将音频转换为姿态的任务中,使用相同的wav2vec网络作为主干,但是不与audio-to-mesh共享权重。这是因为姿势与音频中的节奏和音调联系更紧密,这与音频到网格任务的重点不同。为了考虑先前状态的影响,我们使用transformer解码器来解码姿势序列。在此过程中,音频特征通过交叉注意机制集成到解码器中,上述两个模块使用简单的L1损失来训练 在获得网格和姿态序列后,使用透视投影将它们转换为二维面部landmarks序列。这些landmarks随后被用作下一阶段的输入信号。 2.2 Lmk2Video 与AnimateAnyone不同的是,Lmk2Video增强了poseguide设计的复杂性。原始版本仅包含几个卷积层,之后landmark特征与骨干输入层的潜在特征合并。实验发现,这种基本的设计在捕捉嘴唇的复杂运动方面是不够的。因此,最终采用ControlNet的多尺度策略,将相应尺度的landmark特征整合到主干的不同块中。 此外引入了一个额外的改进:包含参考图像的landmark作为额外的输入。PoseGuider的交叉注意模块促进了参考landmark和每帧目标landmark之间的交互。这个过程为网络提供了额外的线索来理解面部landmark和外观之间的相关性,从而帮助生成具有更精确运动的肖像动画。 AniPortrait效果展示 用户提供一个音频文件和一张参考的肖像图片实现动画生成。 https://img.pidoutv.com/wp-content/uploads/2024/03/316711426-51a502d9-1ce2-48d2-afbe-767a0b9b9166.mp4 用户提供一段视频,实现在新的肖像上复现视频中人物的面部表情和动作。 https://img.pidoutv.com/wp-content/uploads/2024/03/316711084-849fce22-0db1-4257-a75f-a5dc655e6b9e.mp4
数据统计
相关导航

Animatable AI 是一个先进的动画创作平台,它利用人工智能技术将视频转换成引人入胜的动画。用户可以选择不同的风格,调整视频中的细节,如头发、眼睛和衣服的颜色,然后在大约10分钟内看到转换发生。

Talking Avatar
TalkingAvatar是一款基于AI的虚拟人物生成工具,支持创建虚拟角色并为其添加语音,实现动画人物讲解或交流功能。作为领先的AI虚拟形象平台,TalkingAvatar 提供革命性的方法来创建、编辑和个性化视频内容。用户可以通过AI驱动技术轻松重写视频、克隆声音、同步口型以及创建定制视频。

AdsDog
AdsDog是什么 Adsdog是专为...

Animaker ai
Animaker AI是一款基于AI技术的在线动画视频制作平台,主要用于帮助用户快速创建各种类型的动画作品,包括2D动画、白板动画、视频介绍等。这个平台允许用户在几分钟内创建视觉效果惊人的视频,无论是初学者、非设计人员还是专业人士,都能使用它来制作内容。

Hour One
Hour One-人工智能文字到视频生成,无需编辑或设计技能。

Animatable AI
Animatable AI 是一个先进的动画创作平台,它利用人工智能技术将视频转换成引人入胜的动画。用户可以选择不同的风格,调整视频中的细节,如头发、眼睛和衣服的颜色,然后在大约10分钟内看到转换发生。

Vozo
Vozo是什么 Vozo是一款多功...

Choppity
Choppity是一款自动化视频编辑工具,旨在帮助用户节省视频编辑时间。无论是社交媒体、销售、培训视频还是其他类型的视频,Choppity 都可以为您提供高效、便捷的编辑解决方案。如果您喜欢使用 Canva,那么您一定会喜欢 Choppity。
暂无评论...