可灵大模型

1个月前发布 8 00

可灵大模型是快手AI团队自研的一款视频生成大模型,采用类似Sora的技术路线,能够生成符合物理规律的大幅度运动视频,模拟真实世界的特性。支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。2024年6月,快手正式推出了可灵大模型,并在快影App开放邀测体验。

收录时间:
2025-04-08
可灵大模型可灵大模型

可灵大模型是快手AI团队自研的一款视频生成大模型,它基于快手在视频技术方面的多年积累,采用类似Sora的技术路线,并结合多项自研技术创新。这个模型具备强大的视频创作能力,能够生成符合物理规律的大幅度运动视频,模拟真实世界的特性。 数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。2024年6月,快手正式推出了可灵大模型,并在快影App开放邀测体验。 可灵大模型官网界面 可灵大模型的主要功能特点 合理运动生成:可灵大模型能够生成大幅度的合理运动。它采用了3D时空联合注意力机制,更好地建模视频中的复杂时空运动。例如,宇航员在月球上奔跑的画面,动作流畅且符合运动规律。 模拟物理世界特性:得益于自研模型架构和Scaling Law,可灵大模型构建了一个无限逼近现实的想象空间。它能够生成符合物理规律的视频,包括光影反射、重力影响下的流体运动等。 概念组合能力和想象力:凭借对文本-视频语义的深刻理解和基于Diffusion Transformer架构学到的强大概念组合能力,可灵大模型能够将用户丰富的想象力转化为具体的画面。例如,熊猫吉他手坐在湖边弹吉他唱歌的想象场景。 高分辨率视频生成:可灵大模型生成的视频分辨率高达1080p,时长高达2分钟(帧率30fps),且支持自由的宽高比。这使其在短视频领域有广泛的应用。 主要优势 生成大幅度的合理运动:可灵大模型采用了3D时空联合注意力机制,能够更好地建模视频中的复杂时空运动。因此,它不仅能够生成较大幅度的运动,还更符合客观运动规律,真正让想象力动起来。例如,一个低角度镜头展现月球表面上的宇航员奔跑,镜头慢慢抬升,我们可以看到宇航员跑步的动作流畅轻盈,步态和影子的运动合理恰当。 模拟真实物理世界的特性:得益于自研模型架构及Scaling Law激发出的强大建模能力,可灵大模型为我们构建起了一个无限逼近现实的想象空间。无论是真实世界的光影反射、重力影响下的流体运动,还是与物理世界的交互,可灵大模型都能够生成符合物理规律的视频。例如,一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡,一口咬下去,汉堡被咬掉一个大大的缺口,并在视频中一直保持。 强大的概念组合能力和想象力:凭借模型对文本-视频语义的深刻理解和基于Diffusion Transformer架构学到的强大概念组合能力,可灵大模型能够将用户丰富的想象力转化为具体的画面,让创意触手可及。例如,一个湖边的想象场景中,熊猫吉他手坐在湖边弹着吉他唱着歌。 灵活的输出设置:可灵大模型生成的视频分辨率高达1080p,时长高达2分钟(帧率30fps),且支持自由的输出视频宽高比。这使得用户可以根据需要自由调整视频的宽高比,以适应不同的播放平台和设备。 话不多说,接下来就带大家欣赏一下可灵的大作~ 可灵不但在想象上天马行空,在描绘运动时又能做到符合真实的运动规律,复杂、大幅度的时空运动也能准确刻画。 比如这个在公路上高速奔跑的老虎,不仅画面连贯,随镜头角度的变化合理,老虎四肢的动作协调,而且还把奔跑过程中躯干部分的抖动也展现得淋漓尽致。 在公路上高速奔跑的老虎 还有宇航员在月球上奔跑的画面,动作流畅,步态和影子的运动合理恰当,太绝了。 宇航员在月球上奔跑 除了运动,可灵大模型还能模拟真实物理世界特性,生成的视频更符合物理规律。 在这段倒牛奶的视频中,力学方面的重力规律、液面的上升都符合现实,连倒液体时泡沫一直在最上层的特性也考虑到了: 倒牛奶 还有光学上的反射规律也考虑到了,注意看这只弹钢琴的猫猫,光滑表面上影子里的猫爪和琴键,都在随着本体同步变化。 弹钢琴的猫猫 另外,与真实物理世界的交互,也能被真实反映——下面视频中小男孩吃汉堡的生成视频中,一口咬下去,齿印一直都在,小男孩享受吃汉堡的享受过程宛如就在眼前。 小男孩吃汉堡 要知道,符合物理规律对于大模型来说还是相当困难的事,连Sora也不能完全做好。 比如同样是吃汉堡这个场景,Sora生成的视频不仅有人手只有三根手指这样的槽点,咬合位置与汉堡上的咬痕也并不匹配…… Sora生成的视频 不做“画饼”大模型,应用才是硬道理 大模型行业“卷”到今天,我们见证了太多技术的高光时刻,但技术突破的初心仍然还是应用。 快手可灵视频生成模型,诞生于短视频头部厂商,也持续面向应用在探索。非常值得一提的是,可灵大模型是发布即上线,不画饼!不画饼!不画饼! 可灵的文生视频模型,已在快影APP中正式开启邀测,目前开放的版本支持720P视频生成,竖版视频生成能力也即将开放。 顺便再做个剧透,基于可灵大模型的图生视频功能,也将于近期与用户见面。 实际上,作为头部视频厂商,快手在大模型热潮之中也动作迅速,此前就曾相继推出语言模型和文生图模型。 基于这些模型,AI文案、AI生图,AI生视频,以及更多AI创作功能,都已相继在快手和快影APP中上线。 算法Direct-a-Video、多模态生成算法Video-LaVIT、图生视频算法I2V-Adapter、多模态美学评价模型UNIAA等关键技术,为可灵大模型积累了深厚的技术沉淀。 现在,快手完整的文生视频功能终于华丽登场,我们期待快手作为一家拥有独特场景优势和广泛应用场景的短视频赛道巨头,能够率先把视频生成能力在短视频场景中落地生花。 如果你对AI视频创作感兴趣,不妨到快影APP中一探究竟。 快影

数据统计

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...