JoyGen

5个月前发布 18 00

JoyGen是一个音频驱动的3D深度感知说话人脸视频生成框架。它通过音频驱动生成嘴唇运动和视觉外观合成，旨在实现精确的嘴唇-音频同步和高视觉质量。

收录时间：

2025-04-08

打开网站手机查看

AI大模型 # 3D说话人脸生成 # AI大模型 # JoyGen # 分类导航 # 音频驱动3D说话人脸视频模型 # 音频驱动视频生成

JoyGen

打开网站

JoyGen是由京东科技与香港大学合作开发的音频驱动 3D 说话人脸视频生成框架，采用一种新颖的两阶段框架。该技术通过音频输入驱动 3D 深度感知模型，实现精确的唇部与音频同步，以逼真模拟说话者的唇部动作和面部表情，生成高度真实的视频内容。JoyGen 主要应用于视频编辑和虚拟交互领域。技术特点: 音频驱动唇部运动生成： JoyGen 使用 3D 重建模型和 audio2motion 模型，分别预测身份和表情系数，通过将音频特征与面部深度图结合，实现精确的唇部与音频同步。视觉外观合成：提供高质量的视觉外观合成，确保视频的视觉效果和唇部运动的自然性。数据集支持： JoyGen 使用了一个包含 130 小时高质量视频的中文说话人脸数据集进行训练。该数据集与开放的 HDTF（高分辨率深度图数据集）结合，支持中文和英文输入。情感表达： JoyGen 还考虑了音频的情绪特征，能够在生成的动画中自然地表现出人物的情感变化，例如微笑或皱眉等，使生成的视频更加生动和真实。如何使用JoyGen：环境搭建：用户需创建一个特定的conda环境，并安装必要的依赖包，包括Nvdiffrast等特定库。预训练模型下载：获取JoyGen的预训练模型，包括3D模型、音频到运动模型等，这些资源通常在项目GitHub页面上提供。运行推理：通过执行特定的脚本和参数，用户可以将音频文件转换为带有逼真唇部同步的3D说话人脸视频。应用场景：视频编辑：用于编辑和生成高质量的说话人脸视频，适用于各种视频制作和编辑需求。虚拟主播：为虚拟主播提供精确的嘴唇同步和自然的面部表情。教育和培训：用于制作教育视频和培训资料，提升视频内容的互动性和生动性。通过这些功能，JoyGen 在说话人脸视频生成和编辑方面展现了强大的能力。 GitHub：https://github.com/JOY-MM/JoyGen JoyGen – 音频驱动的3D深度感知说话人脸视频生成框架

数据统计

GPT-4

Animate Anyone

DreaMoving是一种基于扩散模型打造的可控视频生成框架，通过图文就能制作高质量人类跳舞视频。用户只需上传一张人像，以及一段提示词，就能生成对应的视频，而且改变提示词，生成的人物的背景和身上的衣服也会跟着变化。简单来说就是，一张图、一句话就能让任何人或角色在任何场景里跳舞。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

JoyGen

数据统计

相关导航

甲骨文AI协同平台-殷契文渊

Phantom

SDXL-Lightning

光语金帆

阿里云百炼

Lumiere

GPT-4

Animate Anyone

暂无评论

网址

书舟搜索（kindle吧）

健美网

热剧库电影

超境汽车

懂球帝

江苏福彩

热门推荐