千影 QianYing 是一款由巨人网络 AI Lab 推出的有声游戏生成大模型,包含游戏视频生成大模型 YingGame 和视频配音大模型 YingSound。通过先进的人工智能技术,千影 QianYing 能够自动生成高质量、有声的游戏视频。YingGame 通过自定义角色、动作控制和物理模拟,创造互动性强的游戏内容;YingSound 则为视频添加高保真音效,实现精确的跨模态对齐和时间同步。千影 QianYing 旨在大幅提升游戏创作效率,助力游戏开发进入创作平权时代,让创意无限延展。 YingGame YingGame 是面向开放世界游戏的视频生成大模型,由巨人网络 AI Lab 与清华大学 SATLab 联合研发。它首次实现了角色多样动作的交互控制和个性化定制,以及强大的物理模拟特性。用户可以自定义游戏角色,并通过理解用户输入(如鼠标、键盘按键等)控制角色的多种动作和精细的主体控制,生成具有复杂运动和动作连续性的交互性游戏视频。 YingSound YingSound 是由巨人网络 AI Lab、西北工业大学 ASLP Lab 和浙江大学联合研发的视频配音大模型。它具备超强的时间对齐和视频语义理解能力,能够为各种类型的视频(包括真实场景视频、动漫视频和游戏视频)生成高精细度的音效。YingSound 支持从视频或视频文本结合的方式生成高保真音效,有效提升少样本场景下的生成质量,实现精确的跨模态对齐效果。 技术创新与应用: 千影 QianYing 通过技术层面的多项创新,包括跨模态特征融合、细粒度角色表征、运动增强与多阶段训练策略,结合高效高质量的游戏视频训练数据生产管线,确保生成内容具备高交互能力和多样化应用场景。 前景与展望: 随着千影 QianYing 的发布,巨人网络实现了自研语义大模型、语音大模型及视频大模型的多模态全矩阵布局,加速“游戏+AI”从降本增效向颠覆式创新的转化。未来,千影 QianYing 将极大提升游戏发行内容的创作效率,并为游戏生产管线、交互方式、游戏玩法带来深远影响。 巨人网络 AI 实验室将持续推进模型能力的升级迭代,同时启动“千影共创计划”,对外开放模型技术、模型应用和原创游戏项目的合作共创、应用落地和人才招募,推动游戏创作的平权化,让更多人实现游戏开发梦想。
数据统计
相关导航
BuboGPT是字节跳动推出的一种先进的大型语言模型(LLM),它具有将文本、图像和音频等多模态输入进行整合的能力,并且具备将回复与视觉对象进行对接的独特功能,可以执行跨模态交互并做到对多模态的细粒度理解。这显示出BuboGPT在对齐或未对齐的任意图像音频数据理解方面有着出色的对话能力。
Outfit Anyone
Outfit Anyone是一种虚拟试穿技术,它可以让用户在照片上穿上任何衣服。它是阿里巴巴集团智能计算研究所开发的一个创新项目,利用先进的人工智能和机器学习技术,提供高质量和细节一致的虚拟试穿效果。它可以适应不同的姿势和身材,甚至可以在动漫角色上试穿服装。
Goku
Goku 是一个基于流生成的视频生成基础模型,由香港大学和字节跳动研究团队共同开发。Goku 模型主要用于生成高质量的视频内容,尤其在广告和营销场景中表现尤为出色。
PixArt-Σ
PIXART-Σ是华为推出的图像生成模型,由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发。采用Diffusion Transformer (DiT) 架构,专用于生成 4K 分辨率的 AI 图像。用户只需输入一段文字描述就能生成具有4K高分辨率的图像,相较于前身PixArt-α,它提供了更高的图像保真度和与文本提示更好的对齐。
魔搭ModelScope社区
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!
RAGFlow
RAGFlow是一款开源的检索增强生成(RAG)引擎,专为深入理解文档而设计。它为各类企业和个人提供简洁高效的RAG工作流程,与大语言模型(LLM)相结合,针对各种复杂格式的数据提供可靠的问答及有依据的引用。RAGFlow非常适合需要动态内容生成且依赖外部知识库的场景,如智能客服、文档生成和数据分析等,助力用户高效挖掘大量数据中的有价值信息。
TangoFlux
TANGOFLUX是一个高效的文本转音频(TTA)生成模型,拥有 515M 参数,能够在单个 A40 GPU 上仅需 3.7 秒生成长达 30 秒的 44.1kHz 立体声音频,TangoFlux不仅可以生成音效如鸟叫、口哨、爆炸等声音,还能生成音乐。
Codex大模型
Codex大模型是一个基于GPT技术的强大编程语言模型,具备自动生成代码、文档、测试用例等功能。它能够理解和处理复杂的编程问题,提高开发效率,是编程领域的重要创新。
暂无评论...
