FunAudioLLM

1年前发布 48 00

收录时间：

2025-04-08

打开网站手机查看

AI大模型 # AI大模型 # AI音频工具 # ai音频生成模型 # CosyVoice大模型 # FunAudioLLM # FunAudioLLM音频生成大模型 # SenseVoice大模型 # 分类导航

FunAudioLLM

打开网站

FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型（LLMs）之间的自然语音交互的框架。其核心包括两个创新模型：SenseVoice 和 CosyVoice。SenseVoice 提供高精度的多语言语音识别、情绪识别和音频事件检测，支持超过 50 种语言，并具有极低的延迟。CosyVoice 则专注于自然语音生成，支持多语言、音色和情绪控制，能够进行零样本语音生成、跨语言语音克隆和指令遵循。FunAudioLLM 的应用包括语音翻译、情感语音聊天、互动播客和表现力有声书等，推动语音交互技术的边界。 FunAudioLLM – 阿里通义开源的音频生成大模型项目地址：项目官网：https://fun-audio-llm.github.io/ CosyVoice在线体验地址：https://www.modelscope.cn/studios/iic/CosyVoice-300M SenseVoice在线体验地址：https://www.modelscope.cn/studios/iic/SenseVoice GitHub仓库：https://github.com/FunAudioLLM arXiv技术论文：https://arxiv.org/abs/2407.04051 FunAudioLLM的主要功能特点 1、SenseVoice：多语言语音识别：支持超过 50 种语言的高精度语音识别。情绪识别：能够识别说话者的情绪状态。音频事件检测：检测并识别音频中的特定事件。低延迟：提供极低的延迟，确保实时交互。 2、CosyVoice：自然语音生成：支持多语言、音色和情绪控制的自然语音生成。零样本语音生成：无需大量样本即可生成高质量语音。跨语言语音克隆：能够跨语言进行语音克隆。指令遵循：根据指令生成相应的语音内容。这些功能使 FunAudioLLM 在语音翻译、情感语音聊天、互动播客和表现力有声书等应用中表现出色。应用场景 FunAudioLLM 有多个应用场景，主要包括：语音翻译：通过结合 SenseVoice 和 CosyVoice，可以实现多语言的语音到语音翻译（S2ST），并且能够保留原始语音的情感和语调。情感语音聊天：利用 SenseVoice 的情感识别和 CosyVoice 的情感语音生成，可以开发出支持情感交互的语音聊天应用。互动播客：通过 SenseVoice 的高精度语音识别和 CosyVoice 的多语言语音生成，可以创建互动式播客电台，用户可以实时参与并引导话题。有声读物：结合 LLMs 的文本分析能力和 CosyVoice 的语音合成技术，可以生成具有高表现力的有声读物，提供丰富的听觉体验。

数据统计

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

FunAudioLLM

数据统计

相关导航

商汤日日新开放平台

S2V.AI

Mistral AI

星火大模型

Hibiki

阿里云百炼

紫东太初

阿里云百炼

暂无评论

网址

水果派TV解说视频

bt磁力天堂

虫虫影视

Galgamex

爱笑聚

龙腾网

热门推荐