
AniPortrait是一个由腾讯推出的音频驱动的肖像动画合成框架,能够根据音频和静态人脸图片生成逼真的动态视频。它利用音频文件驱动,生成逼真的肖像动画。用户可以通过提供一个音频文件和一张参考的肖像图片,让AniPortrait根据音频中的语音和声音的节奏来动态地生成说话或表情变化的肖像动画。此外,它还支持面部再现功能,通过分析给定视频中的面部表情和动作,可以在另一张参考肖像上再现相同的表情和动作。 AniPortrait包含两个主要模块:Audio2Lmk和Lmk2Video。Audio2Lmk模块从音频输入中提取一系列landmarks,捕捉复杂的面部表情和嘴唇动作;而Lmk2Video模块则利用这个具有里程碑意义的序列来生成具有时间稳定性的高质量人像视频。 项目地址: 文章地址:https://arxiv.org/abs/2403.17694 项目代码:https://github.com/Zejun-Yang/AniPortrait AniPortrait的功能特点 音频驱动的动画生成:AniPortrait能够根据输入的音频文件,自动提取其中的语音和声音节奏,进而驱动静态的人脸图片生成动态的肖像动画。这种音频驱动的方式为用户提供了便捷的操作体验,无需复杂的动画编辑技能即可生成逼真的肖像动画。 逼真的面部表情和动作:通过先进的算法和技术,AniPortrait能够准确地捕捉音频中的语音和声音变化,并映射到人脸图片上,生成与音频内容相匹配的面部表情和动作。这使得生成的动画看起来更加自然、生动,增强了观看者的沉浸感和代入感。 面部再现功能:除了根据音频生成动画外,AniPortrait还支持面部再现功能。它通过分析给定视频中的面部表情和动作,可以在另一张参考肖像上精确地再现相同的表情和动作。这种功能为用户提供了更多的创意空间,可以将不同人物的面部表情和动作应用到其他肖像上,创造出丰富多样的动画效果。 高质量的视频输出:AniPortrait注重生成的动画视频质量,通过优化算法和参数设置,确保输出的视频具有清晰、流畅的画面和稳定的帧率。这使得生成的动画视频不仅看起来逼真,而且在播放过程中也不会出现卡顿或抖动等问题。 易用性和灵活性:AniPortrait具有直观的用户界面和简洁的操作流程,使用户能够轻松上手并快速完成肖像动画的生成。同时,它还提供了丰富的参数设置和调整选项,允许用户根据具体需求进行个性化定制,以满足不同场景和风格的需求。 AniPortrait技术原理 AniPortrait包含两个模块,即Audio2Lmk和Lmk2Video。Audio2Lmk旨在从音频输入中提取一系列landmarks,捕捉复杂的面部表情和嘴唇动作。Lmk2Video利用这个具有里程碑意义的序列来生成具有时间稳定性的高质量人像视频。整体框架如下: AniPortrait整体框架 (第一阶段从音频中提取三维面部网格和头部姿态,然后将这两个元素投影到二维关键点上,第二阶段利用扩散模型将2D关键点转换为人像视频) 2.1 Audio2Lmk 同时使用预训练的wav2vec来提取音频特征。wav2vec该模型具有高度的泛化性,能够准确地识别语音和语调,这对于生成逼真的面部动画起着关键作用。通过利用所获得的鲁棒语音特征,可以有效地采用由两个fc层组成的简单架构将这些特征转换为3D面部网格。这种简单的设计不仅保证了准确性,而且提高了推理过程的效率。 在将音频转换为姿态的任务中,使用相同的wav2vec网络作为主干,但是不与audio-to-mesh共享权重。这是因为姿势与音频中的节奏和音调联系更紧密,这与音频到网格任务的重点不同。为了考虑先前状态的影响,我们使用transformer解码器来解码姿势序列。在此过程中,音频特征通过交叉注意机制集成到解码器中,上述两个模块使用简单的L1损失来训练 在获得网格和姿态序列后,使用透视投影将它们转换为二维面部landmarks序列。这些landmarks随后被用作下一阶段的输入信号。 2.2 Lmk2Video 与AnimateAnyone不同的是,Lmk2Video增强了poseguide设计的复杂性。原始版本仅包含几个卷积层,之后landmark特征与骨干输入层的潜在特征合并。实验发现,这种基本的设计在捕捉嘴唇的复杂运动方面是不够的。因此,最终采用ControlNet的多尺度策略,将相应尺度的landmark特征整合到主干的不同块中。 此外引入了一个额外的改进:包含参考图像的landmark作为额外的输入。PoseGuider的交叉注意模块促进了参考landmark和每帧目标landmark之间的交互。这个过程为网络提供了额外的线索来理解面部landmark和外观之间的相关性,从而帮助生成具有更精确运动的肖像动画。 AniPortrait效果展示 用户提供一个音频文件和一张参考的肖像图片实现动画生成。 https://img.pidoutv.com/wp-content/uploads/2024/03/316711426-51a502d9-1ce2-48d2-afbe-767a0b9b9166.mp4 用户提供一段视频,实现在新的肖像上复现视频中人物的面部表情和动作。 https://img.pidoutv.com/wp-content/uploads/2024/03/316711084-849fce22-0db1-4257-a75f-a5dc655e6b9e.mp4
数据统计
相关导航

极虎漫剪是一个结合Stable Diffusion技术的创作工具,专为小说推文视频制作设计。它提供AI分镜、批量绘图和一键视频合成功能,支持自定义模板和故事情节调整。用户可以免费体验,该工具旨在提高创作效率,简化视频制作流程。

ReelCraft AI
ReelCraft AI是一个免费的AI视频制作工具,它可以帮助用户通过输入文字快速制作专业的动画视频。这个工具能够自动创建短视频,包括故事场景、角色和旁白。用户只需要输入一个故事主题,选择风格和视频尺寸,然后等待大约15分钟,ReelCraft AI就会生成一个有故事情节、旁白、动画和背景音乐的视频。

HeyGen Video Translate
HeyGen Video Translate是一款前沿的在线AI视频翻译工具,专注于将视频内容翻译成用户指定的语言,包括语音和口型。它利用先进的AI技术,精准地捕捉视频中人物的嘴型变化,并根据目标语言的发音习惯进行修改,使翻译后的视频更自然、流畅。

白日梦AI
白日梦AI是一款文本生成图像或图像生成视频的工具,它可以将文本生成图像、图像生成视频、配音字幕和后期剪辑等功能整合成一个完整的AI视频生产工作流,只需几分钟时间,你就可以将2000字以内的文案一键生成原创IP故事视频,视频长度可达6分钟。

Etna
Etna是什么 Etna是七火山科...

即创
即创是什么 即创是抖音推出...

Artflow AI
Artflow.ai 是一个使用 AI 技术生成图像的平台,它可以让用户创建自己的独特动画故事,包括原创角色和场景。用户可以使用 Artflow.ai 的 AI 生成的资源来创建自己的故事元素,比如角色、场景和声音,还可以编写自己的对话,看到自己的故事变成现实。

美图MoKi
美图MoKi是美图公司推出的一款AI短片创作工具。它能够在用户完成脚本、视觉风格、角色等前期设定后,自动生成分镜图并转换为视频素材。此外,MoKi还提供智能剪辑、AI配乐、AI音效和自动字幕等功能,帮助用户串联素材并制作成短片。
暂无评论...