AniPortrait是一个由腾讯推出的音频驱动的肖像动画合成框架,能够根据音频和静态人脸图片生成逼真的动态视频。它利用音频文件驱动,生成逼真的肖像动画。用户可以通过提供一个音频文件和一张参考的肖像图片,让AniPortrait根据音频中的语音和声音的节奏来动态地生成说话或表情变化的肖像动画。此外,它还支持面部再现功能,通过分析给定视频中的面部表情和动作,可以在另一张参考肖像上再现相同的表情和动作。 AniPortrait包含两个主要模块:Audio2Lmk和Lmk2Video。Audio2Lmk模块从音频输入中提取一系列landmarks,捕捉复杂的面部表情和嘴唇动作;而Lmk2Video模块则利用这个具有里程碑意义的序列来生成具有时间稳定性的高质量人像视频。 项目地址: 文章地址:https://arxiv.org/abs/2403.17694 项目代码:https://github.com/Zejun-Yang/AniPortrait AniPortrait的功能特点 音频驱动的动画生成:AniPortrait能够根据输入的音频文件,自动提取其中的语音和声音节奏,进而驱动静态的人脸图片生成动态的肖像动画。这种音频驱动的方式为用户提供了便捷的操作体验,无需复杂的动画编辑技能即可生成逼真的肖像动画。 逼真的面部表情和动作:通过先进的算法和技术,AniPortrait能够准确地捕捉音频中的语音和声音变化,并映射到人脸图片上,生成与音频内容相匹配的面部表情和动作。这使得生成的动画看起来更加自然、生动,增强了观看者的沉浸感和代入感。 面部再现功能:除了根据音频生成动画外,AniPortrait还支持面部再现功能。它通过分析给定视频中的面部表情和动作,可以在另一张参考肖像上精确地再现相同的表情和动作。这种功能为用户提供了更多的创意空间,可以将不同人物的面部表情和动作应用到其他肖像上,创造出丰富多样的动画效果。 高质量的视频输出:AniPortrait注重生成的动画视频质量,通过优化算法和参数设置,确保输出的视频具有清晰、流畅的画面和稳定的帧率。这使得生成的动画视频不仅看起来逼真,而且在播放过程中也不会出现卡顿或抖动等问题。 易用性和灵活性:AniPortrait具有直观的用户界面和简洁的操作流程,使用户能够轻松上手并快速完成肖像动画的生成。同时,它还提供了丰富的参数设置和调整选项,允许用户根据具体需求进行个性化定制,以满足不同场景和风格的需求。 AniPortrait技术原理 AniPortrait包含两个模块,即Audio2Lmk和Lmk2Video。Audio2Lmk旨在从音频输入中提取一系列landmarks,捕捉复杂的面部表情和嘴唇动作。Lmk2Video利用这个具有里程碑意义的序列来生成具有时间稳定性的高质量人像视频。整体框架如下: AniPortrait整体框架 (第一阶段从音频中提取三维面部网格和头部姿态,然后将这两个元素投影到二维关键点上,第二阶段利用扩散模型将2D关键点转换为人像视频) 2.1 Audio2Lmk 同时使用预训练的wav2vec来提取音频特征。wav2vec该模型具有高度的泛化性,能够准确地识别语音和语调,这对于生成逼真的面部动画起着关键作用。通过利用所获得的鲁棒语音特征,可以有效地采用由两个fc层组成的简单架构将这些特征转换为3D面部网格。这种简单的设计不仅保证了准确性,而且提高了推理过程的效率。 在将音频转换为姿态的任务中,使用相同的wav2vec网络作为主干,但是不与audio-to-mesh共享权重。这是因为姿势与音频中的节奏和音调联系更紧密,这与音频到网格任务的重点不同。为了考虑先前状态的影响,我们使用transformer解码器来解码姿势序列。在此过程中,音频特征通过交叉注意机制集成到解码器中,上述两个模块使用简单的L1损失来训练 在获得网格和姿态序列后,使用透视投影将它们转换为二维面部landmarks序列。这些landmarks随后被用作下一阶段的输入信号。 2.2 Lmk2Video 与AnimateAnyone不同的是,Lmk2Video增强了poseguide设计的复杂性。原始版本仅包含几个卷积层,之后landmark特征与骨干输入层的潜在特征合并。实验发现,这种基本的设计在捕捉嘴唇的复杂运动方面是不够的。因此,最终采用ControlNet的多尺度策略,将相应尺度的landmark特征整合到主干的不同块中。 此外引入了一个额外的改进:包含参考图像的landmark作为额外的输入。PoseGuider的交叉注意模块促进了参考landmark和每帧目标landmark之间的交互。这个过程为网络提供了额外的线索来理解面部landmark和外观之间的相关性,从而帮助生成具有更精确运动的肖像动画。 AniPortrait效果展示 用户提供一个音频文件和一张参考的肖像图片实现动画生成。 https://img.pidoutv.com/wp-content/uploads/2024/03/316711426-51a502d9-1ce2-48d2-afbe-767a0b9b9166.mp4 用户提供一段视频,实现在新的肖像上复现视频中人物的面部表情和动作。 https://img.pidoutv.com/wp-content/uploads/2024/03/316711084-849fce22-0db1-4257-a75f-a5dc655e6b9e.mp4
数据统计
相关导航
AI课代表是一款视频AI助手,支持B站、油管、抖音、西瓜等平台,擅长总结要点、转写字幕、知识问答。
VMagic
VMagic 是一款AI 视频转绘工具,可以把普通视频变成各种艺术风格的绘画作品。利用最前沿的人工智能技术,自动识别视频中的每一帧,并重新绘制成水彩、油画、素描等多种风格。无论是创意视频制作、动画项目,还是个人艺术创作,VMagic 都能提供高质量的转绘效果,帮助用户轻松实现视频风格化。
Etna
Etna是什么 Etna是七火山科...
飞推
飞推(趣推)是一个AI特效视频制作平台,提供海量的免费视频素材和创意模板,让你轻松制作出各种风格的视频,无论是抖音、快手、微博等短视频平台,还是YouTube、B站等长视频平台,都能找到适合你的视频方案。趣推还支持一键分享到各大社交媒体,让你的视频更有人气和影响力。
Flow Studio
Flow Studio是什么 Flow Stu...
InVideo AI
InVideo AI是什么 InVideo A...
快转字幕
快转字幕是全球领先的语音转文字平台,同时也是一款高效便捷的字幕制作工具,为各种创作者提供字幕制作、学习资源、会议记录、字幕制作等场景,帮助您一键轻松生成精准字幕,提高观众体验,并轻松获取冷门资源的文字内容,快速提高学习效率。
Al Face Swap
AI Face Swap是一个免费的在线AI人脸替换工具,利用先进的人工智能技术进行照片和视频中的人脸替换。用户只需上传照片或视频,即可享受即时的人脸替换效果。AI Face Swap 支持单张图片人脸替换、视频人脸替换和批量处理多张图像,界面友好,无需专业知识。
暂无评论...
