CatVTON是一款由中山大学、美图和鹏城实验室(Pixocial)联合发布的基于扩散模型的虚拟试穿技术工具,旨在提供高效、低资源需求的虚拟试穿体验。通过在空间维度上简单地拼接服装和人物图像来实现不同类别服装的虚拟试穿,该方法有效地降低了模型复杂度和计算成本,同时保持了高质量的虚拟试衣效果,特别适用于电商平台、时尚设计、个人造型顾问、增强现实应用和虚拟时装秀等场景。 这个是官方作者给出的效果: 主要特点 轻量级与高效性:CatVTON采用轻量级的网络结构,总参数量为899.06M,训练时只需49.57M的可训练参数。推理过程在1024×768分辨率下仅需不到8G的显存,对电脑配置要求较低,个人电脑也能轻松运行。 高分辨率支持:支持高分辨率操作,能够生成高质量的虚拟试穿图像。 高度还原细节:能够高度还原不同模特的姿势动作、面部表情以及不同体型的细节,同时保留服装的褶皱、纹理、LOGO和版型等细节。 多任务、多品类支持:不仅支持传统的平铺服装图到人物的换装,还支持上衣、裤子、裙子、套装等不同品类的同时换装,甚至支持人物A到人物B的随心换装。 工作流程 CatVTON的技术原理主要基于扩散模型和轻量级网络结构。以下是其核心技术细节: 轻量级网络结构:CatVTON采用轻量级的网络结构,总参数量为899.06M。这种设计大大降低了模型的复杂度,使其在普通硬件上也能高效运行。 参数高效训练:CatVTON仅需49.57M的可训练参数,显著提高了训练效率。这意味着在训练过程中,所需的计算资源较少,训练速度更快。 简化推理过程:在1024×768分辨率下,推理过程仅需不到8G的显存。这使得CatVTON能够在配置较低的个人电脑上运行。 拼接策略:CatVTON通过在输入上将人物和服装在通道维度进行拼接(Concatenate),有效融合人体、服装和背景信息。这种方法不仅简化了模型结构,还提高了生成结果的质量和稳定性。 无额外网络模块:CatVTON摆脱了对额外的ReferenceNet的依赖,跳过了对图像虚拟试衣来说没有显著帮助的文本交叉注意力。同时,也不需要任何额外的图像编码器来辅助生成。 这些技术创新使得CatVTON在保持高质量输出的同时,大幅降低了计算资源需求,适用于电商平台、时尚设计、个人造型顾问等多种应用场景。 上手测试效果展示: 这个是我自己测试的效果: 换上湖人的队服(手部这块处理的很合理) 换上裙子,细节处理也很好 用虚拟人物测试了一下(效果也很完美) 如何安装 这次的实现效果,最主要的取决于一个大神整理的一个叫做CatVTON的节点,但这个节点的安装和所需要依赖的环境太过于严苛,而且很容易造成和其他环境的冲突,于是有人又基于做了一个叫做CatVTON_Wrapper的节点,完美的解决以上的问题,而且整个工作流非常简单,如下: github节点地址:https://github.com/chflame163/ComfyUI_CatVTON_Wrapper?tab=readme-ov-file 安装步骤: 1)安装此节点的依赖包,可以在Manager里安装,也可以在\ComfyUI\custom_nodes里直接通过Git clone安装; git clone https://github.com/chflame163/ComfyUI_CatVTON_Wrapper.git 2)安装此节点所需要的依赖环境;在刚才已经克隆好的文件目录下,如:ComfyUI\custom_ Nodes\ComfyUI_CatVTON_Wrapper中;通过命令行安装依赖文件;前面的… 是你的ComfyUI的Python文件夹; ..\..\..\python_embeded\python.exe -s -m pip install -r requirements.txt 3)下载所需要的模型文件;这里可以在CatVTON官方地址下载,这里也给一个百度网盘的地址,下载后扔进ComfyUI\models\CatVTON 文件夹下即可 官方下载:https://github.com/Zheng-Chong/CatVTON 找到这个位置,下载即可 如何设置 当上面的一切都准备就绪后,我们就可以搭建工作流,然后开始进行换服装的相关操作了;具体的图像和参数设置如下: (第一次启动工作流的时候,要安装一些依赖的模型文件,大概10多分钟左右) image: The input image. image:输入图片。mask:输入图片的蒙版,蒙版范围内的服装将被重绘。refer_image:重新绘制服装的参考图像。mask_grow:蒙版扩展的大小。如果重绘服装样式不正确,请尝试调整此值。mixed_precision:可以选择 fp32、fp16、bf16,模型将在所选数据类型下运行。seed:sampler 的随机种子。steps:sampler 的步数。cfg:扩散模型的 cfg 强度。 如果生成的遮罩预览效果不好,可以适当的调整阈值,越低识别精度越模糊,但也适合一些不好识别的场景;越清楚的图0.3的阈值就可以了; 如果换装效果不理想,也可以适当的调整mask_grow这个值,越大覆盖的服装范围越大; 现在就可以玩起来了,我们用这个工作流再做几张好玩的效果: 让马斯克穿上周鸿祎的红衣大炮战甲 马斯克也可以雍容富贵一把
数据统计
相关导航
光语金帆 是由无限光年公司推出的金融大模型,结合了顶尖的人工智能技术和人才资源,旨在构建超越客户期望的人工智能生成内容(AIGC)产品组合,推动金融行业生产力和用户交互体验的全面提升,实现金融服务的智能化、公平化和普惠化。
SeamlessM4T
SeamlessM4T是Meta推出的一款多语言和多任务模型,能够处理语音识别、文本翻译和语音合成等任务。它支持近100种语言,可以将语音转录为文本,再进行翻译,甚至可以将翻译后的文本转化为语音。
GPT-4
GPT-4是OpenAI开发的最新一代大型语言模型。它能够接受文本和图像输入,生成类似人类的文本输出。它还能处理长达2.5万字的内容,是ChatGPT的8倍以上,使其在生成文本、延伸对话或分析文件方面更加强大。GPT-4还具备分析图像的能力,能够识别图片中的元素并生成相关的文本。
SEED-Story
SEED-Story是一个腾讯开源的基于大型语言模型(MLLM)的多模态长篇故事生成模型,它能够根据用户提供的图片和文本生成连贯的叙事文本和风格一致的图片。无论是小说创作、剧本编写还是视觉故事,SEED-Story都能提供高质量、多模态的内容,助力创意产业的发展。
Google Gemini
Google Gemini是由谷歌推出的一款人工智能多模态大模型,于2023年12月6日发布。这个模型具有强大的功能,能够同时识别文本、图像、音频、视频和代码五种类型的信息。它还能理解并生成主流编程语言的高质量代码,如Python、Java、C++,并且进行了全面的安全性评估。
Hyper-SD
Hyper-SD 是字节跳动推出的一种先进图像生成框架,结合了轨迹分段一致性蒸馏(TSCD)和人类反馈学习(RLHF),显著提升了扩散模型在少步骤推理下的图像生成性能。通过 Hyper-SD,用户可以在 1 到 8 步的推理过程中生成高质量的图像,极大地提高了生成速度和效率。
NotaGen
NotaGen 是由中央音乐学院与清华大学等机构联合研发的AI音乐生成模型,专注于生成高质量古典音乐乐谱,同时支持流行音乐创作。作为开源项目,其目标是推动音乐与人工智能的深度融合,为专业作曲家、教育机构及音乐爱好者提供创作辅助工具。
天谱乐
天谱乐是唱鸭旗下的AI音乐品牌,为用户提供个性化、智能化的音乐创作体验。它支持文本、图片和视频生成音乐,让创作变得简单便捷。利用先进的多模态理解与生成技术,天谱乐能够生成与图片和视频情感高度契合的音乐,并提供发行级的歌曲创作服务。无论是专业音乐人还是普通爱好者,天谱乐都能帮助您高效创作出独一无二的音乐作品。
暂无评论...
