SEED-Story是一个腾讯开源的基于大型语言模型(MLLM)的多模态长篇故事生成模型,它能够根据用户提供的图片和文本生成连贯的叙事文本和风格一致的图片。无论是小说创作、剧本编写还是视觉故事,SEED-Story都能提供高质量、多模态的内容,助力创意产业的发展。 SEED-Story的功能特点 基于大型语言模型(MLLM):SEED-Story利用先进的MLLM技术,能够从用户提供的图像和文本作为起点,生成包含丰富、连贯的叙事文本以及风格一致的图像的多模态长篇故事。 生成内容丰富:生成的故事不仅包含文字描述,还包含与文字内容相匹配、风格一致的图像,增强了故事的沉浸感和表现力。 保持一致性:在生成过程中,SEED-Story能够确保角色形象和故事风格的一致性,使得整个故事更加连贯和吸引人。 SEED-Story的技术原理 SEED-Story是一个基于大型语言模型(MLLM)的多模态长篇故事生成模型,其技术原理主要包括以下几个阶段: 1.预训练阶段: 在第一阶段,SEED-Story预训练了一个基于SD-XL的去标记化器(de-tokenizer)。该去标记化器通过接受预训练的视觉变换器(ViT)的特征作为输入来重建图片。 这一阶段的目标是使模型能够理解和生成高质量的视觉内容。 2.序列训练阶段: 在第二阶段,模型采样一个随机长度的交错图像-文本序列。通过对目标图像的ViT特征和可学习查询的输出隐藏状态之间的下一个词预测和图像特征回归来训练大型语言模型(MLLM)。 这一阶段的目标是使模型能够生成连贯的叙事文本,并在文本和图像之间建立关联。 3.调优阶段: 在第三阶段,从MLLM回归得到的图像特征被输入到去标记化器中,以调整SD-XL。 这一阶段的目标是增强生成图片中角色和风格的一致性,使生成的故事内容更加连贯和一致。 通过这三个阶段的训练和调优,SEED-Story能够生成丰富且连贯的叙事文本,并在角色和风格上保持一致的图片,适用于多模态长篇故事生成。 适用场景 小说创作:作家可以使用SEED-Story生成连贯的叙事文本和风格一致的插图,帮助他们快速构思和创作长篇小说。 剧本编写:编剧可以利用SEED-Story生成剧本内容和视觉元素,为电影、电视剧和舞台剧提供创意支持。 视觉故事:艺术家和设计师可以使用SEED-Story生成视觉故事,结合文本和图片,创造出引人入胜的多媒体作品。 教育和培训:教育工作者可以利用SEED-Story生成教育内容和教学材料,帮助学生更好地理解和学习复杂的概念。 广告和营销:营销人员可以使用SEED-Story生成创意广告和营销材料,吸引目标受众的注意力。 游戏开发:游戏开发者可以利用SEED-Story生成游戏剧情和视觉元素,提升游戏的故事性和沉浸感。
数据统计
相关导航
Google Gemini是由谷歌推出的一款人工智能多模态大模型,于2023年12月6日发布。这个模型具有强大的功能,能够同时识别文本、图像、音频、视频和代码五种类型的信息。它还能理解并生成主流编程语言的高质量代码,如Python、Java、C++,并且进行了全面的安全性评估。
PixArt-Σ
PIXART-Σ是华为推出的图像生成模型,由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发。采用Diffusion Transformer (DiT) 架构,专用于生成 4K 分辨率的 AI 图像。用户只需输入一段文字描述就能生成具有4K高分辨率的图像,相较于前身PixArt-α,它提供了更高的图像保真度和与文本提示更好的对齐。
文心千帆
文心千帆是百度智能云推出的产业级知识增强大模型,包括基础大模型、任务大模型、行业大模型,以及丰富的工具与平台,支撑企业与开发者进行高效便捷的应用开发。它能够从海量数据和大规模知识中融合学习,效率更高,效果更好,具备知识增强、检索增强和对话增强的技术特色。
可灵大模型
可灵大模型是快手AI团队自研的一款视频生成大模型,采用类似Sora的技术路线,能够生成符合物理规律的大幅度运动视频,模拟真实世界的特性。支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。2024年6月,快手正式推出了可灵大模型,并在快影App开放邀测体验。
商量拟人大模型
商量拟人大模型是商汤科技推出的一款AI拟人大模型,它支持个性化角色创建与定制、知识库构建、长对话记忆、多人群聊等功能,可实现行业领先的角色对话、人设及剧情推动能力。该模型广泛应用于情感陪伴、影视/动漫/网文IP角色、明星/网红/艺人AI分身、语言角色扮演游戏等拟人对话场景。
序列猴子
序列猴子是出门问问自研的一款大语言模型,它以语言为核心的能力体系涵盖了知识、对话、数学、逻辑、推理和规划等六个维度。它可以同时支持文字生成、图片生成、3D内容生成、语音生成和语音识别等不同任务,展现出强大的多模态表达能力。
Adobe Firefly Image2
Adobe Firefly Image 2 是Adobe推出的一款生成式人工智能模型,建立在Firefly图像模型的基础上,专为设计师和创作者提供更强大、更智能的图像生成能力。它通过简单的文字描述,可以生成高质量的图像、文字效果和鲜艳的调色板。
WiseDiag-Z1
WiseDiag-Z1是由杭州智诊科技推出的全科医学通用大语言模型,专为医疗领域设计,具有730亿参数和强大的医学知识库。它在知名的医学大模型主流榜单中名列前茅,适用于大多数复杂场景的健康咨询。
暂无评论...
