
PixelDance
PixelDance是由字节跳动开发的一款高动态视频生成模型,它能够根据用户提供的图片和文本描述来生成具有复杂场景和动态效果的视频。这项技术特别在于它结合了图像指令(针对视频片段的首尾帧)和文本指令,使得生成的视频不仅视觉上丰富,而且动作细节丰富,能够展现出高度的动态性。
Step-Video-T2V 是由阶跃星辰与吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。
Step-Video-T2V是由 阶跃星辰 与 吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。 其主要特点功能: 强大的模型参数:拥有 300 亿参数,能够生成最长 204 帧的视频,支持高分辨率和流畅的动态效果。 高效压缩技术:采用深度压缩变分自编码器(Video-VAE),实现 16×16 空间压缩和 8x 时间压缩,同时保持视频的高质量。 双语支持:内置双语文本编码器,支持中文和英文输入,适应多语言用户需求。 视觉质量优化:通过视频偏好优化(Video-DPO)技术,减少视频中的伪影,提升视觉效果,使生成的视频更加真实和自然。 多场景适用:在运动、风景、动物、节日、3D 动画等多个类别中表现出色,适用于创意内容制作、广告、教育等领域。 Step-Video-T2V 是一款开源模型,用户可以通过其 GitHub 仓库获取代码和模型权重,方便开发者进行二次开发和应用。 Step-Video-T2V:一款开源的多模态文本生成视频模型