
琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发的人工智能音乐创作大模型。它可以通过输入中英文关键词、描述性语句或音频,能够直接生成立体声音频或多轨乐谱。具体来说,琴乐大模型可以根据文本提示生成44.1kHz的立体声音频(wav)或多轨乐谱(MIDI),包括旋律轨、和弦轨、伴奏轨和打击乐轨等。它还支持对生成的乐谱进行自动编辑,如续写、重新生成指定轨、修改乐器类型等。 琴乐大模型 – 腾讯推出的人工智能音乐创作大模型 琴乐大模型的主要功能特点 音乐生成:通过输入中英文关键词、描述性语句或音频,琴乐大模型可以直接生成44.1kHz的立体声音频(wav)或多轨乐谱(MIDI),包括旋律轨、和弦轨、伴奏轨和打击乐轨。 自动编辑:支持对生成的乐谱进行自动编辑,如续写、重新生成指定轨、重新生成指定小节、修改乐器类型和节奏等。 高质量输出:在大规模双盲听测中,琴乐大模型在多维度主观评分上超越了业内其他音乐生成模型。 多模态支持:模型包含多个模块,包括音频文本对齐模型、乐谱/音频表征提取模型、大语言模型、立体声生成模型和声码器等,能够实现高效、准确的音乐生成。 未来扩展:研究团队计划在模型中加入人声、歌词等要素的生成能力,以更好地服务音乐创作需求。 这个模型的应用非常广泛,可以帮助音乐人更高效地创作音乐,也可以为普通用户提供生成音乐的能力。目前,相关技术已经上线腾讯音乐启明星平台,供音乐创作者使用。 腾讯音乐天琴实验室面向QQ音乐、全民k歌、腾讯音乐人、酷我、酷狗等产品的多媒体与AI应用型技术研究与落地。负责的明星项目包括QQ音乐上的听歌识曲、哼唱识别、翻唱识别、歌词时间戳、臻品音质、DMEE、mv视频剪辑、字幕识别、明星识别;全民K歌上的唱歌评分、智能修音、智能音效、歌声合成;懒人畅听上的AI朗读、AI文稿;直播互动上的智能品鉴、高光识别、端云一体视频质量提升。同时还在探索元宇宙中的虚拟人技术,以虚拟形象、虚拟舞蹈、歌唱表情生成、音乐灯光秀等为核心的小天小琴兄妹虚拟人即将面世,敬请期待。
数据统计
相关导航

PixelDance是由字节跳动开发的一款高动态视频生成模型,它能够根据用户提供的图片和文本描述来生成具有复杂场景和动态效果的视频。这项技术特别在于它结合了图像指令(针对视频片段的首尾帧)和文本指令,使得生成的视频不仅视觉上丰富,而且动作细节丰富,能够展现出高度的动态性。

Outfit Anyone
Outfit Anyone是一种虚拟试穿技术,它可以让用户在照片上穿上任何衣服。它是阿里巴巴集团智能计算研究所开发的一个创新项目,利用先进的人工智能和机器学习技术,提供高质量和细节一致的虚拟试穿效果。它可以适应不同的姿势和身材,甚至可以在动漫角色上试穿服装。

腾讯混元DiT
腾讯混元DiT是一个基于Diffusion transformer的文本到图像生成模型,也是业内首个中文原生的DiT架构文生图开源模型。该模型具有中英文细粒度理解能力,能够与用户进行多轮对话,根据上下文生成并完善图像。

Auto-GPT
Auto-GPT 是一个使用 GPT-4 语言模型来自动执行多步骤项目的开源应用程序。它可以让 GPT-4 自主行动,根据自然语言的目标,自动地分解成子任务,并利用互联网和其他工具来实现它,而无需人工提示。

AnyText
AnyText是阿里云开源的一种基于扩散的多语言视觉文本生成和编辑模型,它利用了深度学习、自然语言处理、计算机视觉等技术,实现了对图像中文本的检测、识别、生成和编辑。

商汤日日新开放平台
日日新开放平台

GPT-4
GPT-4是OpenAI开发的最新一代大型语言模型。它能够接受文本和图像输入,生成类似人类的文本输出。它还能处理长达2.5万字的内容,是ChatGPT的8倍以上,使其在生成文本、延伸对话或分析文件方面更加强大。GPT-4还具备分析图像的能力,能够识别图片中的元素并生成相关的文本。

TangoFlux
TANGOFLUX是一个高效的文本转音频(TTA)生成模型,拥有 515M 参数,能够在单个 A40 GPU 上仅需 3.7 秒生成长达 30 秒的 44.1kHz 立体声音频,TangoFlux不仅可以生成音效如鸟叫、口哨、爆炸等声音,还能生成音乐。
暂无评论...