
Magic Clothing是一个专注于控制性的服装驱动图像合成的项目,它是OOTDiffusion模型的一个分支版本,旨在通过服装来控制图像的生成。并且官方团队发布了在 768 分辨率上训练的模型权重,此版本中服装和文本提示的强度可以独立调整。以及支持与IP-Adapter-FaceID、ControlNet-Openpos模型一起使用,能够使用肖像和参考姿势图像作为附加条件。这个项目的目标是为图像合成提供更多的控制和灵活性,使得用户能够根据自己的需求创建更具个性化和创意的图像。 MagicClothing权重文件:https://huggingface.co/ShineChen1024/MagicClothing github:https://github.com/ShineChen1024/MagicClothing/tree/main OOTDiffusion技术论文:https://arxiv.org/abs/2403.01779 IP-Adapter-FaceID:https://huggingface.co/h94/IP-Adapter-FaceID Magic Clothing的主要功能特点 控制性:用户可以通过文本提示来控制图像合成中的服装细节,从而生成定制的、穿着特定服装的人物图像。 高度可控:系统能够在生成过程中融合服装细节,实现高度可控和细粒度的图像输出。 多模态支持:支持IP-Adapter-FaceID,允许使用面部图像作为额外条件,提高图像合成的个性化和准确性。 模型更新:提供了不同分辨率的模型权重,如512和768分辨率,以及最新的1024分辨率版本,适用于VTON-HD和DressCode。 可视化工具:提供了Gradio工具,用户可以通过这些工具来探索和使用Magic Clothing的功能。 ComfyUI_MagicClothing体验 ComfyUI_MagicClothing是MagicClothing虚拟试衣的非官方实现ComfyUI插件,但也是一款强大的ComfyUI插件,支持功能如下: 通过提示生语成服装图像 IPAdapter FaceID 配合人脸检测和服装图像合成 IPAdapter FaceID 配合 controlnet openpose 和服装图像合成 支持上半身、下半身和全身模型 ComfyUI_MagicClothing插件安装 可以使用插件管理器搜索ComfyUI_MagicClothing安装,或者采用Git工具安装。 Git安装如下 在 ComfyUI 的 custom_nodes 目录下运行下列CLI命令 git clone https://github.com/frankchieng/ComfyUI_MagicClothing.git pip install -r requirements.txt 模型下载 需要从Huggingface下载 cloth_segm.pth, magic_clothing_768_vitonhd_joint.safetensors(上半身模型), OMS_1024_VTHD+DressCode_200000.safetensors(下半身和全身模型)3个模型,并将它们放置在ComfyUI/custom_nodes/ComfyUI_MagicClothing/checkpoints 目录下。 同时,如果需要体验 ipadapterfaceid保持面部风格一致性迁移,那么还需要安装 ComfyUI_IPAdapter_plus 自定义节点。然后从IPAdapter FaceID 模型,并将它们放置在对应目录结构下。 另外,如果还想运行 controlnet openpose 部分,那么必须安装 comfyui_controlnet_aux 插件,以及下载 openpose 模型中的 body_pose_model.pth, facenet.pth 和 hand_pose_model.pth,并将它们放置在 custom_nodes/comfyui_controlnet_aux/ckpts/lllyasviel/Annotators目录下。 还有部分模型会在运行时根据用户选项下载(如openpose模型 body_pose_model.pth, facenet.pth 和 hand_pose_model.pth),因此需要能访问huggingface。 文件结构如下: ComfyUI |– models | |– ipadapter | | |– ip-adapter-faceid-plus_sd15.bin | | |– ip-adapter-faceid-plusv2_sd15.bin | | |– ip-adapter-faceid_sd15.bin | |– loras | | |– ip-adapter-faceid-plus_sd15_lora.safetensors | | |– ip-adapter-faceid-plusv2_sd15_lora.safetensors | | |– ip-adapter-faceid_sd15_lora.safetensors |– custom_nodes | |– ComfyUI_MagicClothing | | |– checkpoints | | | |– cloth_segm.pth | | | |– magic_clothing_768_vitonhd_joint.safetensors | | | |– OMS_1024_VTHD+DressCode_200000.safetensors MagicClothing模型体验 01. simple workflow 02. IPAdapater FaceID workflow 03. IPAdapater FaceID chained with controlnet openpose workflow 04. full-body workflow with IPadapterFaceid 注:实践效果中对于人物面部特征保持相对弱,作者也提到很快会有人物细节更好改善版模型。目前内置模型为SD1.5模型,作者称将会尝试dreamshape8, xxmix9realistic_v40等SDXL模型。 附录 github:https://github.com/ShineChen1024/MagicClothing/tree/main 插件:https://github.com/frankchieng/ComfyUI_MagicClothing/tree/main
数据统计
相关导航

FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型(LLMs)之间的自然语音交互的框架。其核心包括两个创新模型:SenseVoice 和 CosyVoice。SenseVoice 提供高精度的多语言语音识别、情绪识别和音频事件检测,支持超过 50 种语言,并具有极低的延迟。CosyVoice 则专注于自然语音生成,支持多语言、音色和情绪控制,能够进行零样本语音生成、跨语言语音克隆和指令遵循。

YAYI2
YAYI2(雅意2)是中科闻歌推出的新一代开源大语言模型,支持中文、英语等 10 多种语言。基于 Transformer 架构,参数规模达到 30B。YAYI2 采用 2 万亿 Tokens 的高质量语料进行预训练,并结合人类反馈强化学习,确保模型与人类价值观对齐。其多模态交互功能支持图文互生成、PDF 解析等。YAYI2 广泛应用于媒体宣传、舆情分析、政务治理、金融分析等领域,为企业提供 AI 辅助工具和知识库问答系统。

DeepSeek
DeepSeek(深度求索) 是一款当前非常火爆的开源大型语言模型,因其性能媲美世界顶尖的闭源模型如 ChatGPT 和 Claude 而备受瞩目。该模型在极低成本的情况下完成训练,为用户提供了高效、精准的语言理解和生成能力。

Loopy AI
Loopy是一个端到端音频驱动的视频生成模型,专注于生成逼真的头像动画。利用先进的 AI 技术和时间模块设计,Loopy 能够从音频中提取自然的运动模式,并生成高质量的动画效果。支持多种视觉和音频风格,适用于虚拟主播、动画制作等应用场景。

元象XChat
元象XChat是一款智能聊天助手,它基于元象通用大模型,可以与用户进行自然、流畅、有趣的对话。元象XChat不仅可以提供信息、解答问题,还可以创作内容,如诗歌、故事、代码、歌曲等。元象XChat的目标是成为用户的AI伙伴,帮助用户探索AI与3D的无限可能。

NotaGen
NotaGen 是由中央音乐学院与清华大学等机构联合研发的AI音乐生成模型,专注于生成高质量古典音乐乐谱,同时支持流行音乐创作。作为开源项目,其目标是推动音乐与人工智能的深度融合,为专业作曲家、教育机构及音乐爱好者提供创作辅助工具。

SEED-Story
SEED-Story是一个腾讯开源的基于大型语言模型(MLLM)的多模态长篇故事生成模型,它能够根据用户提供的图片和文本生成连贯的叙事文本和风格一致的图片。无论是小说创作、剧本编写还是视觉故事,SEED-Story都能提供高质量、多模态的内容,助力创意产业的发展。

Darwin
Darwin是一个开源项目,专注于自然科学领域的大型语言模型构建,主要涵盖物理、化学和材料科学。通过对科学文献和数据集进行预训练和微调,Darwin 在科学问答和多任务学习任务中表现优异。它结合了结构化和非结构化的科学知识,提升了语言模型在科学研究中的效能。
暂无评论...