琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发的人工智能音乐创作大模型。它可以通过输入中英文关键词、描述性语句或音频,能够直接生成立体声音频或多轨乐谱。具体来说,琴乐大模型可以根据文本提示生成44.1kHz的立体声音频(wav)或多轨乐谱(MIDI),包括旋律轨、和弦轨、伴奏轨和打击乐轨等。它还支持对生成的乐谱进行自动编辑,如续写、重新生成指定轨、修改乐器类型等。 琴乐大模型 – 腾讯推出的人工智能音乐创作大模型 琴乐大模型的主要功能特点 音乐生成:通过输入中英文关键词、描述性语句或音频,琴乐大模型可以直接生成44.1kHz的立体声音频(wav)或多轨乐谱(MIDI),包括旋律轨、和弦轨、伴奏轨和打击乐轨。 自动编辑:支持对生成的乐谱进行自动编辑,如续写、重新生成指定轨、重新生成指定小节、修改乐器类型和节奏等。 高质量输出:在大规模双盲听测中,琴乐大模型在多维度主观评分上超越了业内其他音乐生成模型。 多模态支持:模型包含多个模块,包括音频文本对齐模型、乐谱/音频表征提取模型、大语言模型、立体声生成模型和声码器等,能够实现高效、准确的音乐生成。 未来扩展:研究团队计划在模型中加入人声、歌词等要素的生成能力,以更好地服务音乐创作需求。 这个模型的应用非常广泛,可以帮助音乐人更高效地创作音乐,也可以为普通用户提供生成音乐的能力。目前,相关技术已经上线腾讯音乐启明星平台,供音乐创作者使用。 腾讯音乐天琴实验室面向QQ音乐、全民k歌、腾讯音乐人、酷我、酷狗等产品的多媒体与AI应用型技术研究与落地。负责的明星项目包括QQ音乐上的听歌识曲、哼唱识别、翻唱识别、歌词时间戳、臻品音质、DMEE、mv视频剪辑、字幕识别、明星识别;全民K歌上的唱歌评分、智能修音、智能音效、歌声合成;懒人畅听上的AI朗读、AI文稿;直播互动上的智能品鉴、高光识别、端云一体视频质量提升。同时还在探索元宇宙中的虚拟人技术,以虚拟形象、虚拟舞蹈、歌唱表情生成、音乐灯光秀等为核心的小天小琴兄妹虚拟人即将面世,敬请期待。
数据统计
相关导航
FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型(LLMs)之间的自然语音交互的框架。其核心包括两个创新模型:SenseVoice 和 CosyVoice。SenseVoice 提供高精度的多语言语音识别、情绪识别和音频事件检测,支持超过 50 种语言,并具有极低的延迟。CosyVoice 则专注于自然语音生成,支持多语言、音色和情绪控制,能够进行零样本语音生成、跨语言语音克隆和指令遵循。
Yi大模型
Yi大模型是由李开复博士领导的AI公司“零一万物”发布的一款开源的中英双语预训练大模型。这个模型在多个性能指标上取得了国际最佳性能认可,被称为“全球最强开源模型”。Yi-34B模型特别之处在于它拥有全球最长的200K上下文窗口,能够处理40万汉字的超长文本输入,这在语言模型中是非常重要的,因为它对于理解和生成与特定上下文相关的文本至关重要。
Magic Clothing
Magic Clothing是一个专注于控制性的服装驱动图像合成的项目,它是OOTDiffusion模型的一个分支版本,旨在通过服装来控制图像的生成。
百度智能云客悦
百度智能云客悦是百度推出的智能客服平台。其旗下的智能外呼平台是一款集合NLP(自然语言处理)、ASR(自动语音识别)、TTS(语音合成)等人工智能技术,提供公有云服务并支持同时面向多名用户,自动发起外呼通话的智能化产品。
Evidently Al
Evidently Al 是一个开源的机器学习模型监测和测试平台,它可以帮助您分析和改进您的模型性能。它可以让您轻松地创建交互式的可视化报告,展示您的模型在验证和预测期间的表现,以及数据漂移的情况。您可以使用 Evidently 这个开源 Python 库来生成 Evidently Al 大模型所需的 JSON 配置文件,然后在 Evidently Al 大模型的网站上上传和查看您的报告。
VideoCrafter2
VideoCrafter2是腾讯推出的一个先进的视频生成模型,它借助深度学习技术,致力于提高视频的视觉质量、动态效果以及概念组合,能够根据用户提供的文本描述生成高质量、流畅的视频作品。
Phantom
Phantom是由字节跳动推出的一款创新视频生成框架,专注于主体一致性的视频生成任务(Subject-to-Video, S2V)。它通过跨模态对齐技术,将文本和图像提示结合起来,从参考图像中提取主体元素,并生成与文本描述一致的视频内容。
CogVideo
CogVideo是目前最大的通用领域文本到视频生成预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。用于文本到视频的生成。它是基于Transformer架构的,旨在通过理解和转换文本描述来生成相应的视频内容。CogVideo能够处理大量的文本-视频对数据,并通过学习这些数据的模式来生成与文本描述相匹配的视频。
暂无评论...
