Vidu 是中国首个长时长、高一致性、高动态性的视频大模型,由生数科技联合清华大学发布。这个模型采用了原创的 U-ViT 架构,融合了 Diffusion(扩散) 与 Transformer 技术,能够一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。Vidu 不仅能够模拟真实物理世界,还拥有丰富的想象力,具备多镜头生成、时空一致性等特点。这对于视频制作、游戏开发、教育、科研等领域都具有广泛的应用。 Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。基于对U-ViT架构的深入理解以及长期积累的工程与数据经验,团队在短短两个月里进一步突破了长视频表示与处理的多项关键技术,研发了Vidu视频大模型,显著提升视频的连贯性和动态性。 作为通用视觉模型,Vidu能够支持生成更加多样化、更长时长的视频内容,同时面向未来,灵活架构将能够兼容更广泛的模态,进一步拓展多模态通用能力的边界。目前,Vidu还处于发布阶段,感兴趣的话可以申请加入其合作伙伴计划。 Vidu 的主要功能特点 文本到视频生成:用户可以通过输入简单的文本提示,快速生成长达16秒的高清视频内容,大大降低了视频制作的技术门槛,使得非专业用户也能轻松制作出高质量的视频。 高分辨率输出:Vidu支持生成分辨率高达1080P的视频,生成的视频具有非常清晰的画质,适合在各种高清显示设备上播放。 多镜头生成能力:Vidu支持同时生成多个镜头视角的视频,能够制作出类似于电影或电视剧中常见的多镜头切换效果,增加了视频的动态感和观赏性。 模拟真实世界:Vidu能够模拟真实世界的物理特性,如物体的运动、光影的变化等,使得生成的视频内容更加逼真。 保持时空一致性:在生成多镜头视频时,Vidu能够保证不同镜头之间的时空关系是连贯的,避免了不同镜头之间出现时空错乱的情况。 技术原理 Vidu的技术原理主要基于以下几个关键技术: U-ViT架构:这是Vidu的核心技术,它结合了Diffusion技术和Transformer技术。U-ViT架构通过将Transformer的自注意力机制应用于扩散概率模型中,提升了图像和视频生成任务的性能。 ViT(Vision Transformer):ViT是首个将标准的Transformer block应用于视觉领域的网络。它通过将图像分割成小块(称为patches),然后将这些patches视为序列中的元素(tokens),利用Transformer的自注意力机制来捕获图像的全局依赖关系。 Diffusion技术:这是一种生成模型技术,通过逐步引入噪声并学习如何逆转这个过程来生成高质量的图像或视频。Vidu利用Diffusion技术生成连贯且逼真的视频内容。 U-Net结构:Vidu引入了U-Net的long skip结构,即跳跃连接,这有助于连接low-level feature并加速网络的训练。Long skip connection为低层次特征提供了快捷方式,这对于像素级别的预测任务至关重要。 时间与条件token:Vidu在输入中引入了时间(time)和条件(condition)作为新的token,这些token与图像patches一起输入到Transformer block中,增强了模型对生成过程的控制能力。 多模态扩散模型UniDiffuser:基于U-ViT架构开发的多模态扩散模型,它验证了U-ViT架构在处理大规模视觉任务时的可扩展性。 长视频表示与处理技术:Vidu在U-ViT架构的基础上,进一步突破了长视频表示与处理的关键技术,使得能够生成更长、更连贯的视频内容。 贝叶斯机器学习:在开发过程中,团队利用了贝叶斯机器学习的技术来优化模型性能。 这些技术的融合使得Vidu不仅继承了Transformer模型在处理序列数据方面的强大能力,还结合了Diffusion模型在生成细节丰富、连贯性高的图像和视频方面的优势,从而在视频生成等多模态任务中取得了突破性进展。 生成视频效果展示 提示词:画室里的一艘船驶向镜头。 提示词:镜头跟随一辆带有黑色车顶行李架的白色老式SUV,它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶,轮胎扬起灰尘,阳光照射在SUV上行驶土路,给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方,看不到其他汽车或车辆。道路两旁都是红杉树,零星散落着一片片绿意。从后面看,这辆车轻松地沿着曲线行驶,看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉,上面是清澈的蓝天和缕缕云彩。 生数科技介绍 北京生数科技有限公司(简称“生数科技”)成立于2023年3月,核心团队成员来自清华大学人工智能研究院,此外汇集了来自阿里、腾讯、字节等知名科技公司的顶尖人才,是全球范围内领先的深度生成式算法研究团队,拥有扩散概率模型底层创新研发能力。 生数科技致力打造世界领先的多模态大模型,融合文本、图像、视频、3D等多模态信息,探索生成式AI在艺术设计、游戏制作、影视后期、内容社交等场景的商业赋能,通过AI提升人类的创造力和生产力。
数据统计
相关导航
Lip Sync AI是一款AI驱动的视频口型同步工具,帮助用户实现音频与视频的完美匹配。Lip Sync AI口型同步生成器确保完美的视频对口型效果,可以在任何语言中创建精确的视频对口型效果,包括多人说话场景和复杂的头部运动
鬼手剪辑GhostCut
鬼手剪辑GhostCut是什么 鬼...
美图开拍
开拍 App 是由美图公司出品,一款帮助口播视频创作者从脚本灵感到高清画质拍摄、视频人像精修、后期智能剪辑全链路的影像生产力工具,十分钟制作高质量口播视频,高效高清。
Anylang.ai
Anylang.ai是由硅基智能推出...
Reface.ai换脸
Reface.ai是一款顶尖的人工智能AI换脸应用,这款应用程序以其有趣、好玩、滑稽和内容丰富而受到用户的喜爱。它允许用户在视频、GIF和表情包中进行换脸操作,提供了大量的素材库,用户只需要拍一张自拍即可轻松进行换脸操作。它可以识别面部特征并将用户的面部特征与其他人的面部特征进行比对。该软件可以换脸的速度非常快,而且换脸的效果也非常真实。RefaceAI支持多种不同的语言,包括中文、英文、日语、韩语等。
雅美度
雅美度AI图文自动转短视频是一款批量快速将文章、图片、音乐转为短视频,并支持橫屏或竖屏.全自动添加(字幕,配音讲解,相关素材),不需要你手动添加和查找素材,你只需要提供txt文案和图片、音乐,剩下的软件来帮你实现.
Medio AI
Medio AI是企业必备的AI编辑工具,提供视频翻译、视频旁白和水印去除等强大功能,帮助企业轻松实现视频营销的本土化。无需下载,在线使用,支持多种语言的翻译和配音,确保视频内容专业且一致。通过 Medio AI,企业可以快速生成高质量的视频内容,在全球范围内推广产品,拓展海外市场,吸引更多用户,提升全球竞争力。
讯飞译制
讯飞译制是一款音视频内容翻译和配音工具,支持多达8种语言的字幕制作。凭借其精准的 AI 语音识别和智能翻译技术,讯飞译制能够高效生成双语字幕,并自动匹配时间码。其核心功能包括智能语音识别、字幕自动生成、多语言翻译及声纹复刻等,满足用户多样化的译制需求。
暂无评论...
