YuE是由香港科技大学开发的开源音乐生成模型,专注于从给定的歌词生成完整的音乐音频。YuE 支持多种音乐风格和语言,能够生成高质量的声乐和伴奏部分,适用于各种音乐创作需求。通过 YuE,用户可以轻松生成长达 5 分钟的完整歌曲,实现创意音乐制作。 YuE:香港科技大学推出的开源音乐生成模型 YuE的主要功能特点 全曲生成:YuE 能够生成长达 5 分钟的完整音乐音频,包括人声和伴奏部分。 歌词条件生成:YuE 在整个歌曲生成过程中跟踪歌词条件,保持音乐结构的连贯性。 多样化音乐风格:支持多种音乐风格,如爵士、流行、说唱、民谣等,提供丰富的音乐选择。 语音和声乐技巧:能够生成复杂的声乐技巧,如咆哮、混合声、即兴演唱等,使音乐更具表现力。 多语言支持:支持多种语言,包括英语、普通话、粤语、日语和韩语,满足不同语言需求。 灵活的技术应用:引入语义增强音频标记器、双标记技术和歌词链式思维等技术,实现高质量音乐生成。 三阶段训练方案:采用三阶段训练方案,确保音乐生成的可扩展性、音乐性和歌词可控性。 技术原理 YuE 的技术原理主要包括以下几个方面: 语义增强音频分词器:YuE 使用语义增强音频分词器来降低训练成本并加速收敛,更好地理解歌词的语义信息,与音乐信号相结合,生成更符合歌词内容的音乐。 双分词技术:YuE 提出了一种双分词技术,在不修改 LLaMa 解码器-only 架构的情况下实现音轨同步的声乐-乐器建模,确保两者在节奏和旋律上的协调性。 歌词链式思维生成:YuE 引入了歌词链式思维生成技术,支持模型在遵循歌词条件的情况下逐步生成整首歌曲,确保生成的歌曲在整体结构上保持连贯性。 三阶段训练方案:YuE 的训练方案分为三个阶段:基础模型训练、风格和情感对齐、偏好纠正,通过这些阶段确保生成的音乐更符合人类的审美标准。 这些技术使得YuE能够生成高质量、连贯且符合歌词内容的音乐,支持多种音乐风格和多语言。 YuE应用场景 音乐创作:音乐制作人可以利用YuE快速生成旋律和伴奏。 影视配乐:在电影、电视剧和短视频制作中,YuE可以为不同场景生成合适的背景音乐。 游戏开发:游戏开发者可以使用YuE生成游戏中的音乐,增强游戏的沉浸感。 教育和研究:音乐教育者和研究人员可以利用YuE进行音乐创作的教学和研究。 项目地址:https://map-yue.github.io/ GitHub:https://github.com/multimodal-art-projection/YuE
数据统计
相关导航
Lumiere是谷歌发布的一个文本到视频扩散模型,于2024年正式发布。这个模型能够直接生成全帧率、低分辨率视频,通过训练海量文本和视频数据,可以将文字描述直接转化为高质量、真实、多样且连贯动作的视频。适用于多种内容创作和视频编辑应用,如图像到视频、视频修复和风格化生成。
腾讯混元大模型
腾讯混元大模型,这是一款由腾讯全方位自研的大型通用语言模型,拥有强悍的参数规模超过千亿级别,预训练语料库超过2万亿tokens。其独步全球的中文理解与创作能力,以及出色的逻辑推理能力和稳定的任务执行能力,都令人震撼。
序列猴子
序列猴子是出门问问自研的一款大语言模型,它以语言为核心的能力体系涵盖了知识、对话、数学、逻辑、推理和规划等六个维度。它可以同时支持文字生成、图片生成、3D内容生成、语音生成和语音识别等不同任务,展现出强大的多模态表达能力。
Codex大模型
Codex大模型是一个基于GPT技术的强大编程语言模型,具备自动生成代码、文档、测试用例等功能。它能够理解和处理复杂的编程问题,提高开发效率,是编程领域的重要创新。
紫东太初
紫东太初大模型是中国科学院自动化研究所和武汉人工智能研究院推出的新一代大模型。它从三模态走向全模态,支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务。这个大模型具备更强的认知、理解、创作能力,为用户带来全新的互动体验。
知海图AI
知海图AI是知乎与面壁智能合作开发的中文大模型,于2023年4月13日开始内测。它的主要功能是对知乎热榜上的问题回答进行要素抽取、观点梳理和内容聚合,以便用户能够更快、更全面地了解知友们讨论的热点与焦点。知海图AI在特定场景中的表现与GPT-4相当,显示出强大的语言理解和内容总结能力。此外,知海图AI的发布也标志着知乎在大语言模型领域的进一步布局,旨在赋能创作者、讨论场、信息获取等多个业务场景。
WiseDiag-Z1
WiseDiag-Z1是由杭州智诊科技推出的全科医学通用大语言模型,专为医疗领域设计,具有730亿参数和强大的医学知识库。它在知名的医学大模型主流榜单中名列前茅,适用于大多数复杂场景的健康咨询。
DeepSeek
DeepSeek(深度求索) 是一款当前非常火爆的开源大型语言模型,因其性能媲美世界顶尖的闭源模型如 ChatGPT 和 Claude 而备受瞩目。该模型在极低成本的情况下完成训练,为用户提供了高效、精准的语言理解和生成能力。
暂无评论...
