
Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译(也称为同步翻译)的模型。与离线翻译不同,离线翻译需要等待源语句结束后才开始翻译,而 Hibiki 能够实时积累足够的上下文,以逐块生成正确的翻译。用户在讲话时,Hibiki 会在目标语言中生成自然的语音,并提供文本翻译。 Hibiki – Kyutai Labs开发的高保真同步语音翻译模型 主要功能特点: 实时翻译: Hibiki 通过多流架构同时处理源语音和目标语音,能够连续处理输入流并生成目标语音。 生成的文本和音频以恒定的帧率(12.5Hz)输出,确保连续的音频流和带时间戳的文本翻译。 训练方法: Hibiki 依赖于对齐的源语音和目标语音及文本的监督训练。由于此类数据量有限,Hibiki 使用合成数据生成进行训练。 使用上下文对齐的弱监督方法进行词级匹配,确保目标语音在源语音可预测时才出现。 推理过程: 在推理过程中,Hibiki 连续编码源语音并生成目标语音。 通过简单的温度采样,Hibiki 兼容批处理,并且可以通过调整 Classifier-Free Guidance 系数来控制语音传输的保真度。 多平台支持: Hibiki 提供了适用于 PyTorch、Rust、MLX(macOS)和 MLX-swift(iOS)的推理代码。 目前支持法语到英语的翻译,较小的 Hibiki-M 模型可以在智能手机硬件上本地运行。 Hibiki的技术: Hibiki是一种通过精确的同步算法,能迅速地将一种语言的语音翻译成另一种语言的语音或文本的解码模型。这一技术的核心在于它多流语言模型,能够在语音识别和翻译过程中,实时生成音频和文本输出。还有,Hibiki还支持声音特征迁移,可以在翻译过程中保留说话者的语调和情感,使翻译的效果更自然和真实。 不过,由于需要进行语音数据的传输和云计算处理,它对网络的要求较高。如果网络信号不好,可能会出现识别错误或者翻译延迟的现象。 Hibiki应用场景: 商务会议:对于跨国商务人士,在会议或者商务宴请等场合,Hibiki可以帮助与会者进行即时翻译,消除语言障碍。 在线教育:在教育平台中,Hibiki能够提供实时语音翻译,帮助不同语言背景的学生进行更好的学习和交流。 旅游翻译:在国外旅游时,方便游客与当地人进行简单的交流,如问路、点餐等。游客可以直接对着手机说出自己的需求,然后得到翻译后的语音或文字回复。 医患沟通:在医院等场所,Hibiki可以辅助医生与患者之间的沟通。 GitHub: https://github.com/kyutai-labs/hibiki
数据统计
相关导航

MoonShot AI(又名“月之暗面AI”)是一家致力于人工智能技术创新的公司,专注于开发和优化大型AI模型。我们的先进人工智能预测技术正改变未来。从股市分析到疫苗研发,我们的大模型技术提供了前所未有的准确性和速度。

ClotheDreamer
ClotheDreamer 是一种基于 3D 高斯方法的工具,用于从文本提示生成可穿戴的、可生产的 3D 服装资产。由上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出。它采用了一种名为 Disentangled Clothe Gaussian Splatting (DCGS) 的新型表示方法,使得服装和人体模型可以分别优化。

Mistral AI
Mistral AI 是一家来自法国的人工智能服务商,专注于大型语言模型和生成式人工智能的构建、培训和应用。Mistral AI 的目标是与 OpenAI 和 谷歌 竞争,为企业开发生成式人工智能基础设施

华知大模型
华知大模型是由同方知网与华为合作开发的中华知识大模型。它是一个专注于知识服务与科研行业的全栈自主可控的大模型,旨在覆盖政企文教等多个行业场景,并提供30多项通用能力体系。华知大模型的核心特色能力包括智能写作、学术搜问、AI伴读、标准智能问答、机构业务知识智能问答以及图书馆读者智能服务系统等。

YuE
YuE是由香港科技大学开发的开源音乐生成模型,专注于从给定的歌词生成完整的音乐音频。YuE 支持多种音乐风格和语言,能够生成高质量的声乐和伴奏部分,适用于各种音乐创作需求。通过 YuE,用户可以轻松生成长达 5 分钟的完整歌曲,实现创意音乐制作。

星火大模型
讯飞星火大模型是由科大讯飞推出的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。可基于自然文本、语音的方式提供多场景文本生成、语言理解、知识问答、逻辑推理、数学解答、代码生成和多模态7大能力,快速生成文本、图片、代码等内容。

言犀
言犀是京东自营智能人机交互平台,助力企业服务数智化转型。以AI技术驱动,从文字、语音到多模态交互,从对话智能到情感智能,聚焦体验、效率与转化,旨在打造新一代智能人机交互平台,面向不同行业和客户场景助力企业服务和营销实现数智化转型升级。

NotaGen
NotaGen 是由中央音乐学院与清华大学等机构联合研发的AI音乐生成模型,专注于生成高质量古典音乐乐谱,同时支持流行音乐创作。作为开源项目,其目标是推动音乐与人工智能的深度融合,为专业作曲家、教育机构及音乐爱好者提供创作辅助工具。
暂无评论...