
可灵大模型是快手AI团队自研的一款视频生成大模型,它基于快手在视频技术方面的多年积累,采用类似Sora的技术路线,并结合多项自研技术创新。这个模型具备强大的视频创作能力,能够生成符合物理规律的大幅度运动视频,模拟真实世界的特性。 数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。2024年6月,快手正式推出了可灵大模型,并在快影App开放邀测体验。 可灵大模型官网界面 可灵大模型的主要功能特点 合理运动生成:可灵大模型能够生成大幅度的合理运动。它采用了3D时空联合注意力机制,更好地建模视频中的复杂时空运动。例如,宇航员在月球上奔跑的画面,动作流畅且符合运动规律。 模拟物理世界特性:得益于自研模型架构和Scaling Law,可灵大模型构建了一个无限逼近现实的想象空间。它能够生成符合物理规律的视频,包括光影反射、重力影响下的流体运动等。 概念组合能力和想象力:凭借对文本-视频语义的深刻理解和基于Diffusion Transformer架构学到的强大概念组合能力,可灵大模型能够将用户丰富的想象力转化为具体的画面。例如,熊猫吉他手坐在湖边弹吉他唱歌的想象场景。 高分辨率视频生成:可灵大模型生成的视频分辨率高达1080p,时长高达2分钟(帧率30fps),且支持自由的宽高比。这使其在短视频领域有广泛的应用。 主要优势 生成大幅度的合理运动:可灵大模型采用了3D时空联合注意力机制,能够更好地建模视频中的复杂时空运动。因此,它不仅能够生成较大幅度的运动,还更符合客观运动规律,真正让想象力动起来。例如,一个低角度镜头展现月球表面上的宇航员奔跑,镜头慢慢抬升,我们可以看到宇航员跑步的动作流畅轻盈,步态和影子的运动合理恰当。 模拟真实物理世界的特性:得益于自研模型架构及Scaling Law激发出的强大建模能力,可灵大模型为我们构建起了一个无限逼近现实的想象空间。无论是真实世界的光影反射、重力影响下的流体运动,还是与物理世界的交互,可灵大模型都能够生成符合物理规律的视频。例如,一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡,一口咬下去,汉堡被咬掉一个大大的缺口,并在视频中一直保持。 强大的概念组合能力和想象力:凭借模型对文本-视频语义的深刻理解和基于Diffusion Transformer架构学到的强大概念组合能力,可灵大模型能够将用户丰富的想象力转化为具体的画面,让创意触手可及。例如,一个湖边的想象场景中,熊猫吉他手坐在湖边弹着吉他唱着歌。 灵活的输出设置:可灵大模型生成的视频分辨率高达1080p,时长高达2分钟(帧率30fps),且支持自由的输出视频宽高比。这使得用户可以根据需要自由调整视频的宽高比,以适应不同的播放平台和设备。 话不多说,接下来就带大家欣赏一下可灵的大作~ 可灵不但在想象上天马行空,在描绘运动时又能做到符合真实的运动规律,复杂、大幅度的时空运动也能准确刻画。 比如这个在公路上高速奔跑的老虎,不仅画面连贯,随镜头角度的变化合理,老虎四肢的动作协调,而且还把奔跑过程中躯干部分的抖动也展现得淋漓尽致。 在公路上高速奔跑的老虎 还有宇航员在月球上奔跑的画面,动作流畅,步态和影子的运动合理恰当,太绝了。 宇航员在月球上奔跑 除了运动,可灵大模型还能模拟真实物理世界特性,生成的视频更符合物理规律。 在这段倒牛奶的视频中,力学方面的重力规律、液面的上升都符合现实,连倒液体时泡沫一直在最上层的特性也考虑到了: 倒牛奶 还有光学上的反射规律也考虑到了,注意看这只弹钢琴的猫猫,光滑表面上影子里的猫爪和琴键,都在随着本体同步变化。 弹钢琴的猫猫 另外,与真实物理世界的交互,也能被真实反映——下面视频中小男孩吃汉堡的生成视频中,一口咬下去,齿印一直都在,小男孩享受吃汉堡的享受过程宛如就在眼前。 小男孩吃汉堡 要知道,符合物理规律对于大模型来说还是相当困难的事,连Sora也不能完全做好。 比如同样是吃汉堡这个场景,Sora生成的视频不仅有人手只有三根手指这样的槽点,咬合位置与汉堡上的咬痕也并不匹配…… Sora生成的视频 不做“画饼”大模型,应用才是硬道理 大模型行业“卷”到今天,我们见证了太多技术的高光时刻,但技术突破的初心仍然还是应用。 快手可灵视频生成模型,诞生于短视频头部厂商,也持续面向应用在探索。非常值得一提的是,可灵大模型是发布即上线,不画饼!不画饼!不画饼! 可灵的文生视频模型,已在快影APP中正式开启邀测,目前开放的版本支持720P视频生成,竖版视频生成能力也即将开放。 顺便再做个剧透,基于可灵大模型的图生视频功能,也将于近期与用户见面。 实际上,作为头部视频厂商,快手在大模型热潮之中也动作迅速,此前就曾相继推出语言模型和文生图模型。 基于这些模型,AI文案、AI生图,AI生视频,以及更多AI创作功能,都已相继在快手和快影APP中上线。 算法Direct-a-Video、多模态生成算法Video-LaVIT、图生视频算法I2V-Adapter、多模态美学评价模型UNIAA等关键技术,为可灵大模型积累了深厚的技术沉淀。 现在,快手完整的文生视频功能终于华丽登场,我们期待快手作为一家拥有独特场景优势和广泛应用场景的短视频赛道巨头,能够率先把视频生成能力在短视频场景中落地生花。 如果你对AI视频创作感兴趣,不妨到快影APP中一探究竟。 快影
数据统计
相关导航

FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型(LLMs)之间的自然语音交互的框架。其核心包括两个创新模型:SenseVoice 和 CosyVoice。SenseVoice 提供高精度的多语言语音识别、情绪识别和音频事件检测,支持超过 50 种语言,并具有极低的延迟。CosyVoice 则专注于自然语音生成,支持多语言、音色和情绪控制,能够进行零样本语音生成、跨语言语音克隆和指令遵循。

Segment Anything
Segment Anything是一个基于深度学习的图像分割模型,它可以根据用户的输入提示(如点或框)生成高质量的物体遮罩。它可以用于为图像中的任何物体生成遮罩,无论是常见的物体(如人、车、猫等),还是罕见的物体(如火箭、恐龙、魔法棒等)。它的特点是具有强大的零样本性能,即它可以在没有见过的类别上进行分割,而不需要额外的训练数据。它的另一个优点是具有快速的推理速度,即它可以在几秒钟内处理一张图像,而不需要显卡或云计算资源。

StereoCrafter
StereoCrafter是腾讯AI实验室开发的一款开源框架,能够将普通的 2D 视频转换为沉浸式的 3D 视频。通过深度估计和立体视频修复技术,StereoCrafter 提供高质量的 3D 视频生成,支持多种视频源,包括电影、视频博客、3D 动画和 AI 生成内容。

Idea-2-3D
Idea-2-3D 是一个3D 模型生成框架,能够从多模态输入(如文本、图像和 3D 模型)中生成高质量的 3D 模型。该框架由三个基于大型多模态模型(LMM)的智能代理组成,分别负责生成提示、选择模型和反馈反映。通过这些代理的协作和批评循环,Idea-2-3D 能够自动生成与输入高度一致的 3D 模型。

华知大模型
华知大模型是由同方知网与华为合作开发的中华知识大模型。它是一个专注于知识服务与科研行业的全栈自主可控的大模型,旨在覆盖政企文教等多个行业场景,并提供30多项通用能力体系。华知大模型的核心特色能力包括智能写作、学术搜问、AI伴读、标准智能问答、机构业务知识智能问答以及图书馆读者智能服务系统等。

Tora
Tora 是阿里团队推出的一个视频生成模型,能够根据轨迹、图像、文本或其组合,快速生成精确运动控制的视频。它支持多种输入方式,如轨迹、文本和图像,并能生成高分辨率、运动可控的视频。

CogVideo
CogVideo是目前最大的通用领域文本到视频生成预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。用于文本到视频的生成。它是基于Transformer架构的,旨在通过理解和转换文本描述来生成相应的视频内容。CogVideo能够处理大量的文本-视频对数据,并通过学习这些数据的模式来生成与文本描述相匹配的视频。

火山方舟大模型
火山方舟是一个由火山引擎推出的大模型服务平台,面向企业提供模型精调、评测、推理等全方位的平台服务。集成了国内多个优秀的大模型,如 MiniMax、智谱 AI、复旦 MOSS 等,覆盖了自然语言处理、计算机视觉、语音识别等多个领域。火山方舟旨在为大模型的开发、应用、运营提供一站式的解决方案,降低大模型使用的门槛,推动大模型的产业化和普及。
暂无评论...