CosyVoice 是阿里巴巴通义实验室发布的开源语音生成模型。它专注于自然语音生成,支持多语言、音色和情感控制。CosyVoice 能够生成中、英、日、粤、韩五种语言的语音,并且可以在短短几秒钟内克隆声音,适用于智能助手、教育、音视频制作和智能客服等多种场景。 CosyVoice – 阿里通义推出的开源语音生成模型,支持多语言和情感控制 主要功能特点 多语言支持:CosyVoice 能生成中文、英文、日文、粤语和韩语等多种语言的自然语音。 零样本语音克隆:只需提供几秒钟的目标说话人语音样本,即可模仿该说话人的声音特征,生成与之相似的语音。 跨语言语音合成:可以使用一种语言的语音样本合成另一种语言的语音,例如用中文语音样本合成英语语音。 指令控制语音生成:支持通过指令控制生成语音的情感、语气、重音等细节,使得合成语音更加丰富多样。 流式推理:支持流式推理模式,实现实时语音合成,适用于智能客服和实时语音翻译等需要即时响应的应用场景。 CosyVoice一键安装包使用方法 CosyVoice 本身也是一款免费开源工具,可以部署到本地免费使用,下面简单介绍一下 windows 一键安装包的基础用法: cosyvoice整合包下载地址 1.下载并解压安装包,记得安装路径中文、特殊字符和空格,否则可能会启动失败; 2. 双击运行 “GPU 诊断” 和 “查看 CUDA 版本” 文件,确保已经安装 CUDA,并且 GPU 可用。然后双击 “运行-CosyVoice-300M” 文件启动程序,等待 WebUI 界面开启(第一次会出现无法打开的提醒,无需理会,等待代码加载完成刷新后 WebUI 会自动打开)。 3. 在 WebUI 界面可以看到 4 种推理模式,每种模式代表不同的功能: 预训练音色:使用程序内置 7 种音色,将文本转换为语音。 3s 极速复刻:通过音频克隆音色,用新音色将同语种文本转为语音。 跨语种复刻:通过音频克隆音色,然后用新音色将不同语种的文字转换为语音。 自然语言控制:通过在文本中插入情绪标签,为配音添加笑声、停顿等元素。 如果想用内置的预设音色生成音频,就选 “预训练音色” 模式。先在「输入合成文本」中输入待转换的文本,然后在「选择预训练音色」处选择一个音色,最后点击底部的「生成音频」,等待音频生成即可。生成的音频会自动保存在根目录的“音频输出”文件夹内 如果想克隆自己的声音在进行配音,选 “3s 极速复刻” 模式,然后按一下步骤操作: 先在「输入合成文本」中输入待转换的文本, 然后在「参考音频」处上传自己的声音文件(或用麦克风录制一份)。声音文件不要超过 30s,人声清晰不能有杂音,录制要连贯,不要有中断。 在「输入 prompt 文本」处输入上传音频的文字内容,比如我录的音频内容是“我是花生,很高兴和大家见面”,就把这几个字原封不动的填写进去。 点击底部的「生成音频」,等待音频生成,这里的音频就是用你自己的声音了。 完成后可以在「输入新的音色名称」处为我们的音色命名,比如我的是“XHS”,然后点击 「保存刚刚推理的 zero-shot 音色」,我们的声音就会被保存为一个文件。之后在“预训练音色”模式下,可以在「选择新增音色」处随时选择使用我们自己的音色了。
数据统计
相关导航
Uberduck AI是一个AI在线文本转语音克隆平台,它能够将文本转换为语音。这个平台提供了基于AI技术的语音合成器,用户可以使用超过5000种富有表现力的声音来制作AI语音合成,包括名人、卡通人物、说唱歌手等。
NaturalReader
NaturalReader是一款基于人工智能技术的文本转语音工具,可将电子书、网页、PDF等文本内容转换成自然流畅的语音,支持多种语言和声音选择。它可以帮助用户节省时间,提高阅读效率,同时也是一款辅助学习、工作的好工具。
Noisee AI
Noisee AI是一个在Discord平台上运行的AI音乐转视频工具,可以将你喜欢的旋律转化为音乐视频。用户可以通过Noisee AI的官方网站或提供的链接加入其Discord服务器,并上传音频文件。Noisee AI支持来自Suno、YouTube、Soundcloud的链接,以及直接上传的MP3文件。通过输入/imagine命令并提供相应的音频链接,Noisee AI能够生成与音频内容相匹配的音乐视频。
F5-TTS
F5-TTS是一个 先进的文本转语音(TTS)平台,利用AI 技术将文本转换为 自然、富有表现力的语音。F5-TTS提供零样本声音克隆、多语言支持和情感表达能力,适用于 配音、有声书、电子学习、营销推广 等场景。
Al Song Maker
AI Song Maker是一个AI歌曲和音乐生成器,专为用户快速生成高品质原创音乐而设计。它支持多种创作方式,包括文本到歌曲、歌词到歌曲以及纯音乐生成。用户可以自定义音乐风格、节奏、情绪和乐器,满足各种创作需求。此外,它提供人声移除、音轨分离和混音等功能,使音乐制作过程更加灵活和高效
MiniMax Audio
MiniMax Audio 是一款 AI驱动的语音合成平台,专注于 文本转语音(TTS)&语音克隆 技术,凭借先进的Speech-02模型,它支持长文本输入和多样化的声音选项,能够 生成自然流畅、多语言、多情感的AI语音,适用于 广告、播客、有声读物、AI导师 等场景!
OptimizerAl
OptimizerAI是一款专门为视频自动生成音效的AI工具。用户可以通过文字提示,利用这个平台创造适用于不同场景的声音和音效,如游戏中的射击声、跳跃声,动画中的雨声环境,以及视频中的地铁到站声音等。此外,它还能基于一个参考声音生成多个类似的声音,提供变声功能。用户可以通过指定风格标签(如卡通、恐怖、8位等)来引导生成不同风格的声音。
SunoAiFree
SunoAiFree是一个 AI 音乐生成工具,可以帮助用户 从文本提示中创建带有人声和乐器的原创歌曲。它是 Suno AI 的替代方案,提供 免费音乐创作服务,让用户能够快速生成各种风格的音乐。
暂无评论...
