riffusionRiffusion是一个利用人工智能生成音乐的工具,它可以根据用户输入的任何文本,创作出相应的音乐片段。它的原理是将文本转换成声音的图像,也就是频谱图,然后再将频谱图转换成音频。Riffusion是基于Stable Diffusion,一个开源的文本到图像的模型,对频谱图进行微调的结果。生成的音乐风格多样,有时候甚至有点超现实,但并不打算取代人类的音乐创作。
Fish SpeechFish Speech 是一个开源的文本转语音(TTS)解决方案,基于 VQ-GAN、Llama 和 VITS 技术开发。它提供多语言支持,包括中文、日语和英语,能够生成高质量的语音合成。这个工具特别适合游戏配音等场景,允许用户自定义和训练专属的语音模型。
arctime ProArctime Pro是一个简单、强大、高效的跨平台字幕制作软件。提供精准的音频波形图,可以快速准确的创建和编辑时间轴。AI语音识别、AI自动打轴可大大降低工作量,机器翻译可以快速进行语言转换。AI语音合成可快速为视频添加配音,开启新一代视频创作方式。支持导出多种字幕格式、导出到全系列剪辑软件、高质量视频压制。
MusicGenMusicGen 是一款开源的人工智能音乐生成模型,它能够根据文本描述或旋律来创造新的音乐。这个模型使用了单语言模型(LM)技术,可以生成高质量的音乐,而且可以通过文本或旋律的指导来操作。MusicGen 的性能已经在多项研究中得到了证实,它在音乐生成方面的表现优于了现有的方法。