CosyVoice
CosyVoice 是阿里巴巴通义实验室发布的开源语音生成模型。它专注于自然语音生成,支持多语言、音色和情感控制。CosyVoice 能够生成中、英、日、粤、韩五种语言的语音,并且可以在短短几秒钟内克隆声音,适用于智能助手、教育、音视频制作和智能客服等多种场景。
Riffusion 是一个免费开源的具有稳定扩散的实时音乐和音频生成库,用户只需输入音乐描述,AI便可以生成对应风格的音乐。该开源项目由Seth Forsgren 和 Hayk Martiros推出,Riffusion的背后原理是基于Stable Diffusion(文本生成图像模型)微调频谱图,频谱图是音频的视觉表示,显示不同频率随时间的振幅,而后再将高保真度的频谱图图像转换为音频。