
V-Express是由南京大学和腾讯AI实验室共同开发的一项技术,旨在通过参考图像、音频和一系列V-Kps图像来生成说话的头像视频。这项技术可以根据不同的信号,如声音、姿势、图像参考等来控制视频内容,确保即使是弱信号也能有效地影响最终生成的视频,使视频生成更加逼真和多样化。 V-Express通过一系列渐进式的丢弃操作来平衡不同的控制信号,逐步实现由弱条件有效控制的生成能力,从而同时考虑姿势、输入图像和音频。 底层技术 在肖像视频生成领域,使用单张图片生成肖像视频的做法越来越普遍。常见的方法包括利用生成模型增强适配器以实现可控生成。 然而,控制信号的强度可能不同,包括文本、音频、图像参考、姿态、深度图等。在这些中,较弱的条件经常因为较强条件的干扰而难以发挥效果,这在平衡这些条件中构成了挑战。 在关于肖像视频生成的工作中,发现音频信号特别弱,常常被姿态和原始图像这些较强的信号所掩盖。然而,直接使用弱信号进行训练往往导致收敛困难。为了解决这个问题,提出了一种名为V-Express的简单方法,通过一系列逐步的弱化操作来平衡不同的控制信号。该方法逐渐使弱条件能够有效控制,从而实现同时考虑姿态、输入图像和音频的生成能力。 使用方法 重要提醒~ 在讲话面孔生成任务中,当目标视频中的人物与参考人物不同时,面部的重定向将是非常重要的部分。选择与参考面孔姿势更相似的目标视频将能够获得更好的结果。 运行演示(第一步,可选) 如果你有目标讲话视频,你可以按照下面的脚本从视频中提取音频和面部V-kps序列。你也可以跳过这一步,直接运行第二步中的脚本,尝试提供的示例。 python scripts/extract_kps_sequence_and_audio.py \ –video_path “./test_samples/short_case/AOC/gt.mp4” \ –kps_sequence_save_path “./test_samples/short_case/AOC/kps.pth” \ –audio_save_path “./test_samples/short_case/AOC/aud.mp3” 建议裁剪一个清晰的正方形面部图像,如下面的示例所示,并确保分辨率不低于512×512。下图中的绿色到红色框是推荐的裁剪范围。 运行演示(第二步,核心) 场景1(A的照片和A的讲话视频) 如果你有A的一张照片和另一个场景中A的讲话视频,那么你应该运行以下脚本。模型能够生成与给定视频一致的讲话视频。你可以在项目页面上看到更多示例。 python inference.py \ –reference_image_path “./test_samples/short_case/AOC/ref.jpg” \ –audio_path “./test_samples/short_case/AOC/aud.mp3” \ –kps_path “./test_samples/short_case/AOC/kps.pth” \ –output_path “./output/short_case/talk_AOC_no_retarget.mp4” \ –retarget_strategy “no_retarget” \ –num_inference_steps 25 场景2(A的照片和任意讲话音频) 如果你只有一张照片和任意的讲话音频。使用以下脚本,模型可以为固定的面孔生成生动的嘴部动作。 python inference.py \ –reference_image_path “./test_samples/short_case/tys/ref.jpg” \ –audio_path “./test_samples/short_case/tys/aud.mp3” \ –output_path “./output/short_case/talk_tys_fix_face.mp4” \ –retarget_strategy “fix_face” \ –num_inference_steps 25 更多参数 对于不同类型的输入条件,如参考图像和目标音频,提供了参数来调整这些条件信息在模型预测中的作用。将这两个参数称为 reference_attention_weight 和 audio_attention_weight。 可以使用以下脚本应用不同的参数以达到不同的效果。通过实验,建议 reference_attention_weight 取值在 0.9-1.0 之间,而 audio_attention_weight 取值在 1.0-3.0 之间。 模型下载 你可以从https://huggingface.co/tk93/V-Express下载模型。已经在模型卡中包含了所有所需的模型。你也可以从原始仓库单独下载模型。 ·stabilityai/sd-vae-ft-mse ·runwayml/stable-diffusion-v1-5。这里只需要unet的模型配置文件。 ·facebook/wav2vec2-base-960h ·insightface/buffalo_l
数据统计
相关导航

Face Adapter 是一种专门为预训练的扩散模型设计的适配器,主要用于面部重演和面部交换任务。它能够实现高精度和高保真度的面部编辑,提供精细的个体识别和属性控制功能。

LTX Video
LTX Video是由 Lightricks公司推出的首个REAL-TIME AI视频生成开源模型。它基于 DiT (Diverse Image Transformer) 架构,能够实时生成高质量的视频。LTX Video 能够以 24 FPS 和 768x512 分辨率生成视频,生成速度比观看速度还要快。

S2V.AI
S2V.Ai是由MiniMax公司推出的一项创新AI视频生成技术,通过S2V-01模型,用户只需上传一张图片,就能将图片中的主体转化为视频中的角色,并实现高度一致性和自然过渡。这项技术为用户提供了快速、低成本、高质量的视频生成解决方案。

ClotheDreamer
ClotheDreamer 是一种基于 3D 高斯方法的工具,用于从文本提示生成可穿戴的、可生产的 3D 服装资产。由上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出。它采用了一种名为 Disentangled Clothe Gaussian Splatting (DCGS) 的新型表示方法,使得服装和人体模型可以分别优化。

Hyper-SD
Hyper-SD 是字节跳动推出的一种先进图像生成框架,结合了轨迹分段一致性蒸馏(TSCD)和人类反馈学习(RLHF),显著提升了扩散模型在少步骤推理下的图像生成性能。通过 Hyper-SD,用户可以在 1 到 8 步的推理过程中生成高质量的图像,极大地提高了生成速度和效率。

阿里云百炼
阿里云百炼是基于通义大模型、行业大模型以及三方大模型的一站式大模型开发平台。面向企业客户和个人开发者,提供完整的模型服务工具和全链路应用开发套件,预置丰富的能力插件,提供API及SDK等便捷的集成方式,高效完成大模型应用构建。

Google Gemini
Google Gemini是由谷歌推出的一款人工智能多模态大模型,于2023年12月6日发布。这个模型具有强大的功能,能够同时识别文本、图像、音频、视频和代码五种类型的信息。它还能理解并生成主流编程语言的高质量代码,如Python、Java、C++,并且进行了全面的安全性评估。

CrewAI
CrewAI是一个创新的框架,专为角色扮演中的AI代理提供自动化设置。它通过促进AI代理之间的合作,使得这些代理能够共同解决复杂问题。CrewAI的核心特征包括角色定制代理、自动任务委派、任务管理灵活性和流程导向。它既可以使用OpenAI的API,也可以通过Ollama使用本地的大模型来运行程序。
暂无评论...