热门

Step-Video-T2V

1年前发布 55 00

Step-Video-T2V 是由阶跃星辰与吉利汽车集团联合开源的一款先进文本生成视频（Text-to-Video）模型。这款模型在 2025 年 2 月 18 日正式发布，具备强大的多模态生成能力，支持中文和英文输入，适用于广告、影视制作、教育等多个场景。

收录时间：

2025-04-08

打开网站手机查看

AI大模型 # AI大模型 # Step-Video-T2V开源模型 # Text-to-Video模型 # 分类导航 # 多模态视频生成模型 # 文本生成视频

Step-Video-T2V

Step-Video-T2V

Step-Video-T2V是由阶跃星辰与吉利汽车集团联合开源的一款先进文本生成视频（Text-to-Video）模型。这款模型在 2025 年 2 月 18 日正式发布，具备强大的多模态生成能力，支持中文和英文输入，适用于广告、影视制作、教育等多个场景。其主要特点功能：强大的模型参数：拥有 300 亿参数，能够生成最长 204 帧的视频，支持高分辨率和流畅的动态效果。高效压缩技术：采用深度压缩变分自编码器（Video-VAE），实现 16×16 空间压缩和 8x 时间压缩，同时保持视频的高质量。双语支持：内置双语文本编码器，支持中文和英文输入，适应多语言用户需求。视觉质量优化：通过视频偏好优化（Video-DPO）技术，减少视频中的伪影，提升视觉效果，使生成的视频更加真实和自然。多场景适用：在运动、风景、动物、节日、3D 动画等多个类别中表现出色，适用于创意内容制作、广告、教育等领域。 Step-Video-T2V 是一款开源模型，用户可以通过其 GitHub 仓库获取代码和模型权重，方便开发者进行二次开发和应用。 Step-Video-T2V：一款开源的多模态文本生成视频模型

数据统计

相关导航

Hibiki

Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译（也称为同步翻译）的模型。与离线翻译不同，离线翻译需要等待源语句结束后才开始翻译，而 Hibiki 能够实时积累足够的上下文，以逐块生成正确的翻译。用户在讲话时，Hibiki 会在目标语言中生成自然的语音，并提供文本翻译。

ReSyncer

ReSyncer 是由清华大学、百度和南洋理工大学 S-Lab 实验室联合开发的多功能 AI 框架，专注于视频合成技术。它能够生成与音频高度同步的逼真口型视频，支持个性化调整、视频驱动口型同步、说话风格迁移和人脸交换。ReSyncer 在创建虚拟主持人、电影配音和多语言内容制作等领域具有广泛应用前景。

百度智能云客悦

百度智能云客悦是百度推出的智能客服平台。其旗下的智能外呼平台是一款集合NLP（自然语言处理）、ASR（自动语音识别）、TTS（语音合成）等人工智能技术，提供公有云服务并支持同时面向多名用户，自动发起外呼通话的智能化产品。

元象XChat

元象XChat是一款智能聊天助手，它基于元象通用大模型，可以与用户进行自然、流畅、有趣的对话。元象XChat不仅可以提供信息、解答问题，还可以创作内容，如诗歌、故事、代码、歌曲等。元象XChat的目标是成为用户的AI伙伴，帮助用户探索AI与3D的无限可能。

RMBG-2.0

RMBG-2.0是由BRIA AI 开发的开源图像背景移除模型，通过先进的卷积神经网络（CNN）实现高精度的前景与背景分离。该模型在经过精心挑选的数据集（包括一般图像、电子商务、游戏和广告内容）上进行了训练，专为大规模企业内容创建的商业用例设计，其准确性、效率和多功能性可以媲美领先的 Source Available 型号。

智谱清流

智谱清流是智谱AI推出的企业级AI智能体开发平台，旨在帮助企业快速构建和部署AI应用，实现业务流程的智能化升级。该平台基于智谱全模型矩阵和先进的大模型技术（如GLM系列），提供了一整套工具和服务，支持多种集成方式，满足不同企业的智能化需求。

Etna模型

Etna大模型是七火山科技推出的一个文生视频的AIGC模型，它能够根据简短的文本描述生成相应的视频内容。七火山科技发布的Etna文生视频模型支持生成视频时长达到8~15秒，每秒可达60帧，分辨率最高可达4K（3840*2160），画面细腻逼真。

魔搭ModelScope社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

暂无评论

您必须登录才能参与评论！

暂无评论...