
可灵大模型是快手AI团队自研的一款视频生成大模型,它基于快手在视频技术方面的多年积累,采用类似Sora的技术路线,并结合多项自研技术创新。这个模型具备强大的视频创作能力,能够生成符合物理规律的大幅度运动视频,模拟真实世界的特性。 数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。2024年6月,快手正式推出了可灵大模型,并在快影App开放邀测体验。 可灵大模型官网界面 可灵大模型的主要功能特点 合理运动生成:可灵大模型能够生成大幅度的合理运动。它采用了3D时空联合注意力机制,更好地建模视频中的复杂时空运动。例如,宇航员在月球上奔跑的画面,动作流畅且符合运动规律。 模拟物理世界特性:得益于自研模型架构和Scaling Law,可灵大模型构建了一个无限逼近现实的想象空间。它能够生成符合物理规律的视频,包括光影反射、重力影响下的流体运动等。 概念组合能力和想象力:凭借对文本-视频语义的深刻理解和基于Diffusion Transformer架构学到的强大概念组合能力,可灵大模型能够将用户丰富的想象力转化为具体的画面。例如,熊猫吉他手坐在湖边弹吉他唱歌的想象场景。 高分辨率视频生成:可灵大模型生成的视频分辨率高达1080p,时长高达2分钟(帧率30fps),且支持自由的宽高比。这使其在短视频领域有广泛的应用。 主要优势 生成大幅度的合理运动:可灵大模型采用了3D时空联合注意力机制,能够更好地建模视频中的复杂时空运动。因此,它不仅能够生成较大幅度的运动,还更符合客观运动规律,真正让想象力动起来。例如,一个低角度镜头展现月球表面上的宇航员奔跑,镜头慢慢抬升,我们可以看到宇航员跑步的动作流畅轻盈,步态和影子的运动合理恰当。 模拟真实物理世界的特性:得益于自研模型架构及Scaling Law激发出的强大建模能力,可灵大模型为我们构建起了一个无限逼近现实的想象空间。无论是真实世界的光影反射、重力影响下的流体运动,还是与物理世界的交互,可灵大模型都能够生成符合物理规律的视频。例如,一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡,一口咬下去,汉堡被咬掉一个大大的缺口,并在视频中一直保持。 强大的概念组合能力和想象力:凭借模型对文本-视频语义的深刻理解和基于Diffusion Transformer架构学到的强大概念组合能力,可灵大模型能够将用户丰富的想象力转化为具体的画面,让创意触手可及。例如,一个湖边的想象场景中,熊猫吉他手坐在湖边弹着吉他唱着歌。 灵活的输出设置:可灵大模型生成的视频分辨率高达1080p,时长高达2分钟(帧率30fps),且支持自由的输出视频宽高比。这使得用户可以根据需要自由调整视频的宽高比,以适应不同的播放平台和设备。 话不多说,接下来就带大家欣赏一下可灵的大作~ 可灵不但在想象上天马行空,在描绘运动时又能做到符合真实的运动规律,复杂、大幅度的时空运动也能准确刻画。 比如这个在公路上高速奔跑的老虎,不仅画面连贯,随镜头角度的变化合理,老虎四肢的动作协调,而且还把奔跑过程中躯干部分的抖动也展现得淋漓尽致。 在公路上高速奔跑的老虎 还有宇航员在月球上奔跑的画面,动作流畅,步态和影子的运动合理恰当,太绝了。 宇航员在月球上奔跑 除了运动,可灵大模型还能模拟真实物理世界特性,生成的视频更符合物理规律。 在这段倒牛奶的视频中,力学方面的重力规律、液面的上升都符合现实,连倒液体时泡沫一直在最上层的特性也考虑到了: 倒牛奶 还有光学上的反射规律也考虑到了,注意看这只弹钢琴的猫猫,光滑表面上影子里的猫爪和琴键,都在随着本体同步变化。 弹钢琴的猫猫 另外,与真实物理世界的交互,也能被真实反映——下面视频中小男孩吃汉堡的生成视频中,一口咬下去,齿印一直都在,小男孩享受吃汉堡的享受过程宛如就在眼前。 小男孩吃汉堡 要知道,符合物理规律对于大模型来说还是相当困难的事,连Sora也不能完全做好。 比如同样是吃汉堡这个场景,Sora生成的视频不仅有人手只有三根手指这样的槽点,咬合位置与汉堡上的咬痕也并不匹配…… Sora生成的视频 不做“画饼”大模型,应用才是硬道理 大模型行业“卷”到今天,我们见证了太多技术的高光时刻,但技术突破的初心仍然还是应用。 快手可灵视频生成模型,诞生于短视频头部厂商,也持续面向应用在探索。非常值得一提的是,可灵大模型是发布即上线,不画饼!不画饼!不画饼! 可灵的文生视频模型,已在快影APP中正式开启邀测,目前开放的版本支持720P视频生成,竖版视频生成能力也即将开放。 顺便再做个剧透,基于可灵大模型的图生视频功能,也将于近期与用户见面。 实际上,作为头部视频厂商,快手在大模型热潮之中也动作迅速,此前就曾相继推出语言模型和文生图模型。 基于这些模型,AI文案、AI生图,AI生视频,以及更多AI创作功能,都已相继在快手和快影APP中上线。 算法Direct-a-Video、多模态生成算法Video-LaVIT、图生视频算法I2V-Adapter、多模态美学评价模型UNIAA等关键技术,为可灵大模型积累了深厚的技术沉淀。 现在,快手完整的文生视频功能终于华丽登场,我们期待快手作为一家拥有独特场景优势和广泛应用场景的短视频赛道巨头,能够率先把视频生成能力在短视频场景中落地生花。 如果你对AI视频创作感兴趣,不妨到快影APP中一探究竟。 快影
数据统计
相关导航

itotii(itotii)致力于打造国内最好的互联网上优质网站网址大全,收录了全网好用强大的网站网址和软件包括设计、开发、影视、人工智能、AI、运营、生活、休闲、办公、工具、资源等超全面的网址和职业技巧内容,让您的上网体验更便捷更放心,努力成为全民级人人都在用的网址导航。

熊猫办公
熊猫办公是一家专注创意设计模板下载的网站,涵盖行业PPT模板、视频素材、Word模板、Excel模板、字体、背景图片、免抠PNG素材、音效及配乐素材等。

imagex绘画
imagex绘画是一款超强大的AI绘图神器 ,可以根据用户的语言描述或图片输入,生成不同风格的艺术作品。通过输入关键词,imageX能够自动生成各种风格的头像和壁纸。无论是二次元、古风、动漫、赛博朋克等不同风格的头像照片,都能在短时间内生成。

石墨文档
石墨文档,全新一代云Office办公软件,支持多人在线协同办公,独有内容级安全,全程留痕可追溯.PC/移动双端覆盖,随时随地在线协同办公,在线文档即写即存统一管理,高效共享文档、表格,是企业云协同办公系统和在线办公平台的更好选择

MagickPen
MagickPen是一款基于chatgpt的人工智能写作助手,它可以帮助你创作任何类型、格式或目的的文本内容。可以帮助我们轻松的地一键生成创意灵感、博客、计划、报告、简历、招聘启事、故事、口号、笑话,甚至歌词 ,还可以用于翻译、语法检测和代码修复,AI赋能,发挥无限可能。MagickPen是你的智能写作伙伴,它可以帮助你发挥你的创造力,实现你的写作目标。

BitTodo
BitTodo是一款简洁高效的日程管理工具,专为Windows用户设计。集便签、待办、提醒等功能于一身,它帮助用户方便地管理日常计划、任务和日记,确保工作和生活的高效运转。此外,用户还可以为不同的日程设置色块及图标标识,实现个性化管理。BitTodo已集成在BitDock工具栏中,用户无需单独下载即可使用。

糖果办公
糖果办公是一家专注办公素材设计与制作创意模板下载的网站,涵盖行业优质精品PPT模板、视频素材、Word模板、Excel模板、音效及配乐素材等,职场技能提升帮手!帮您节省80%的制作时间,海量高端设计师签约网站!

AI论文君
AI论文君是一款人工智能驱动的论文写作辅助工具,可以一键生成论文选题、开题报告、论文大纲、论文全文等。它利用了大数据和深度学习的技术,为研究者提供了高效和高质量的论文写作服务。
暂无评论...