
PIXART-Σ是华为推出的图像生成模型,由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发。采用Diffusion Transformer (DiT) 架构,可直接生成 4K 分辨率的 AI 图像。用户只需输入一段文字描述就能生成具有4K高分辨率的图像,相较于前身PixArt-α,它提供了更高的图像保真度和与文本提示更好的对齐。 PixArt-Σ的关键特性包括高效的训练过程,它通过结合更高质量的数据,从“较弱”的基线模型进化到“更强”的模型,这一过程被称为“弱到强训练”。PixArt-Σ的改进还包括使用了一种新的注意力模块,用于在DiT框架内压缩键和值,显著提高了效率,并促进了超高分辨率图像的生成。 PixArt-Σ适用于需要生成高分辨率图像的应用场景,如电影海报和壁纸设计、游戏视觉内容制作等。无论是艺术家、设计师还是视觉内容创作者,PixArt-Σ都能提供高效、高质量的图像生成解决方案。 此外,研究团队还提供了相关的代码和演示,以便其他研究人员和开发者可以进一步探索和利用这个模型。 项目地址:https://pixart-alpha.github.io/PixArt-sigma-project/ 论文地址:https://arxiv.org/abs/2401.05252 PIXART-Σ文生图模型视频介绍: https://img.pidoutv.com/wp-content/uploads/2024/03/1467539549-1-16.mp4 功能特点 PIXART-Σ的功能特点主要体现在以下几个方面: 高效的训练过程:PIXART-Σ通过结合更高质量的数据,实现了从“较弱”的基线模型到“更强”的模型的进化,这一过程被称为“弱到强训练”。这种训练方式不仅提高了模型的性能,也使其在处理各种复杂的图像生成任务时具有更高的效率。 高效的标记压缩:PIXART-Σ采用了高效的标记压缩技术,这种技术可以显著减少训练过程中的计算量,同时保持模型的性能,从而进一步提升了训练效果。 4K文本到图像生成:PIXART-Σ支持直接生成4K分辨率的高质量图像,这对于需要高分辨率视觉内容的应用场景,如电影、游戏和高质量视觉内容制作等,具有极大的价值。 较小的模型大小:尽管PIXART-Σ能够实现卓越的图像质量和用户提示的遵循能力,但其模型大小却相对较小,这使其在运行和部署时具有更高的灵活性和效率。 和主流其他模型效果对比 上图展示了PixArt-Σ与一些开源模型(如PixArt-α和SDXL)在相同的文本提示下的生成效果:与PixArt-α相比,PixArt-Σ显著提高了肖像的真实感和语义分析能力。与SDXL相比,该方法具有更好的遵循用户指令的能力。其中关键字高亮显示为蓝色。 上图展示了PixArt-Σ和其它四款T2I产品:Firefly 2、Imagen 2、Dalle 3和Midjourney V6在相同的文本提示下的生成效果。通过观察,我们可以发现:PixArt-Σ生成的图像与这些商业产品相比非常具有竞争力。
数据统计
相关导航

紫东太初大模型是中国科学院自动化研究所和武汉人工智能研究院推出的新一代大模型。它从三模态走向全模态,支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务。这个大模型具备更强的认知、理解、创作能力,为用户带来全新的互动体验。

书生通用大模型
书生通用大模型是由上海人工智能实验室发布的大型预训练模型。它包括多个基础模型,如书生·多模态、书生·浦语和书生·天际等。这些模型旨在支持科研创新和产业应用,提供一个全链条开源的研发与应用平台。

Outfit Anyone
Outfit Anyone是一种虚拟试穿技术,它可以让用户在照片上穿上任何衣服。它是阿里巴巴集团智能计算研究所开发的一个创新项目,利用先进的人工智能和机器学习技术,提供高质量和细节一致的虚拟试穿效果。它可以适应不同的姿势和身材,甚至可以在动漫角色上试穿服装。

Mistral AI
Mistral AI 是一家来自法国的人工智能服务商,专注于大型语言模型和生成式人工智能的构建、培训和应用。Mistral AI 的目标是与 OpenAI 和 谷歌 竞争,为企业开发生成式人工智能基础设施

Google Gemini
Google Gemini是由谷歌推出的一款人工智能多模态大模型,于2023年12月6日发布。这个模型具有强大的功能,能够同时识别文本、图像、音频、视频和代码五种类型的信息。它还能理解并生成主流编程语言的高质量代码,如Python、Java、C++,并且进行了全面的安全性评估。

Sora
Sora是一个能以文本描述生成视频的人工智能模型,由美国人工智能研究机构OpenAI开发。它能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。并在单个生成视频中创建多个镜头,准确保留角色和视觉风格。

可灵大模型
可灵大模型是快手AI团队自研的一款视频生成大模型,采用类似Sora的技术路线,能够生成符合物理规律的大幅度运动视频,模拟真实世界的特性。支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。2024年6月,快手正式推出了可灵大模型,并在快影App开放邀测体验。

RMBG-2.0
RMBG-2.0是由BRIA AI 开发的开源图像背景移除模型,通过先进的卷积神经网络(CNN)实现高精度的前景与背景分离。该模型在经过精心挑选的数据集(包括一般图像、电子商务、游戏和广告内容)上进行了训练,专为大规模企业内容创建的商业用例设计,其准确性、效率和多功能性可以媲美领先的 Source Available 型号。
暂无评论...