CatVTON

1年前发布 50 00

CatVTON是一款基于扩散模型的虚拟试穿技术工具，旨在提供高效、低资源需求的虚拟试穿体验。通过在空间维度上简单地拼接服装和人物图像来实现不同类别服装的虚拟试穿，该方法有效地降低了模型复杂度和计算成本，同时保持了高质量的虚拟试衣效果，特别适用于电商平台、时尚设计、个人造型顾问、增强现实应用和虚拟时装秀等场景。

收录时间：

2025-04-08

打开网站手机查看

AI大模型 # AI大模型 # AI虚拟试衣 # AI虚拟试衣工具 # CatVTON # 分类导航

CatVTON

打开网站

CatVTON是一款由中山大学、美图和鹏城实验室（Pixocial）联合发布的基于扩散模型的虚拟试穿技术工具，旨在提供高效、低资源需求的虚拟试穿体验。通过在空间维度上简单地拼接服装和人物图像来实现不同类别服装的虚拟试穿，该方法有效地降低了模型复杂度和计算成本，同时保持了高质量的虚拟试衣效果，特别适用于电商平台、时尚设计、个人造型顾问、增强现实应用和虚拟时装秀等场景。这个是官方作者给出的效果：主要特点轻量级与高效性：CatVTON采用轻量级的网络结构，总参数量为899.06M，训练时只需49.57M的可训练参数。推理过程在1024×768分辨率下仅需不到8G的显存，对电脑配置要求较低，个人电脑也能轻松运行。高分辨率支持：支持高分辨率操作，能够生成高质量的虚拟试穿图像。高度还原细节：能够高度还原不同模特的姿势动作、面部表情以及不同体型的细节，同时保留服装的褶皱、纹理、LOGO和版型等细节。多任务、多品类支持：不仅支持传统的平铺服装图到人物的换装，还支持上衣、裤子、裙子、套装等不同品类的同时换装，甚至支持人物A到人物B的随心换装。工作流程 CatVTON的技术原理主要基于扩散模型和轻量级网络结构。以下是其核心技术细节：轻量级网络结构：CatVTON采用轻量级的网络结构，总参数量为899.06M。这种设计大大降低了模型的复杂度，使其在普通硬件上也能高效运行。参数高效训练：CatVTON仅需49.57M的可训练参数，显著提高了训练效率。这意味着在训练过程中，所需的计算资源较少，训练速度更快。简化推理过程：在1024×768分辨率下，推理过程仅需不到8G的显存。这使得CatVTON能够在配置较低的个人电脑上运行。拼接策略：CatVTON通过在输入上将人物和服装在通道维度进行拼接（Concatenate），有效融合人体、服装和背景信息。这种方法不仅简化了模型结构，还提高了生成结果的质量和稳定性。无额外网络模块：CatVTON摆脱了对额外的ReferenceNet的依赖，跳过了对图像虚拟试衣来说没有显著帮助的文本交叉注意力。同时，也不需要任何额外的图像编码器来辅助生成。这些技术创新使得CatVTON在保持高质量输出的同时，大幅降低了计算资源需求，适用于电商平台、时尚设计、个人造型顾问等多种应用场景。上手测试效果展示：这个是我自己测试的效果：换上湖人的队服（手部这块处理的很合理）换上裙子，细节处理也很好用虚拟人物测试了一下（效果也很完美）如何安装这次的实现效果，最主要的取决于一个大神整理的一个叫做CatVTON的节点，但这个节点的安装和所需要依赖的环境太过于严苛，而且很容易造成和其他环境的冲突，于是有人又基于做了一个叫做CatVTON_Wrapper的节点，完美的解决以上的问题，而且整个工作流非常简单，如下： github节点地址：https://github.com/chflame163/ComfyUI_CatVTON_Wrapper?tab=readme-ov-file 安装步骤： 1）安装此节点的依赖包，可以在Manager里安装，也可以在\ComfyUI\custom_nodes里直接通过Git clone安装； git clone https://github.com/chflame163/ComfyUI_CatVTON_Wrapper.git 2）安装此节点所需要的依赖环境；在刚才已经克隆好的文件目录下，如：ComfyUI\custom_ Nodes\ComfyUI_CatVTON_Wrapper中；通过命令行安装依赖文件；前面的… 是你的ComfyUI的Python文件夹； ..\..\..\python_embeded\python.exe -s -m pip install -r requirements.txt 3）下载所需要的模型文件；这里可以在CatVTON官方地址下载，这里也给一个百度网盘的地址，下载后扔进ComfyUI\models\CatVTON 文件夹下即可官方下载：https://github.com/Zheng-Chong/CatVTON 找到这个位置，下载即可如何设置当上面的一切都准备就绪后，我们就可以搭建工作流，然后开始进行换服装的相关操作了；具体的图像和参数设置如下：（第一次启动工作流的时候，要安装一些依赖的模型文件，大概10多分钟左右） image: The input image. image：输入图片。mask：输入图片的蒙版，蒙版范围内的服装将被重绘。refer_image：重新绘制服装的参考图像。mask_grow：蒙版扩展的大小。如果重绘服装样式不正确，请尝试调整此值。mixed_precision：可以选择 fp32、fp16、bf16，模型将在所选数据类型下运行。seed：sampler 的随机种子。steps：sampler 的步数。cfg：扩散模型的 cfg 强度。如果生成的遮罩预览效果不好，可以适当的调整阈值，越低识别精度越模糊，但也适合一些不好识别的场景；越清楚的图0.3的阈值就可以了；如果换装效果不理想，也可以适当的调整mask_grow这个值，越大覆盖的服装范围越大；现在就可以玩起来了，我们用这个工作流再做几张好玩的效果：让马斯克穿上周鸿祎的红衣大炮战甲马斯克也可以雍容富贵一把

数据统计

光语金帆

光语金帆是由无限光年公司推出的金融大模型，结合了顶尖的人工智能技术和人才资源，旨在构建超越客户期望的人工智能生成内容（AIGC）产品组合，推动金融行业生产力和用户交互体验的全面提升，实现金融服务的智能化、公平化和普惠化。

SeamlessM4T

SeamlessM4T是Meta推出的一款多语言和多任务模型，能够处理语音识别、文本翻译和语音合成等任务。它支持近100种语言，可以将语音转录为文本，再进行翻译，甚至可以将翻译后的文本转化为语音。

GPT-4

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

CatVTON

数据统计

相关导航

光语金帆

SeamlessM4T

GPT-4

SEED-Story

Google Gemini

Hyper-SD

NotaGen

天谱乐

暂无评论

网址

水果派TV解说视频

龙腾网

bt磁力天堂

丫丫动漫

短剧搜

卡号网

热门推荐