Hibiki

1年前发布 40 00

Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译（也称为同步翻译）的模型。与离线翻译不同，离线翻译需要等待源语句结束后才开始翻译，而 Hibiki 能够实时积累足够的上下文，以逐块生成正确的翻译。用户在讲话时，Hibiki 会在目标语言中生成自然的语音，并提供文本翻译。

收录时间：

2025-04-08

打开网站手机查看

AI大模型 # AI大模型 # Hibiki # 分类导航 # 实时语音翻译模型 # 语音翻译模型 # 高保真同步语音翻译模型

Hibiki

打开网站

Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译（也称为同步翻译）的模型。与离线翻译不同，离线翻译需要等待源语句结束后才开始翻译，而 Hibiki 能够实时积累足够的上下文，以逐块生成正确的翻译。用户在讲话时，Hibiki 会在目标语言中生成自然的语音，并提供文本翻译。 Hibiki – Kyutai Labs开发的高保真同步语音翻译模型主要功能特点：实时翻译： Hibiki 通过多流架构同时处理源语音和目标语音，能够连续处理输入流并生成目标语音。生成的文本和音频以恒定的帧率（12.5Hz）输出，确保连续的音频流和带时间戳的文本翻译。训练方法： Hibiki 依赖于对齐的源语音和目标语音及文本的监督训练。由于此类数据量有限，Hibiki 使用合成数据生成进行训练。使用上下文对齐的弱监督方法进行词级匹配，确保目标语音在源语音可预测时才出现。推理过程：在推理过程中，Hibiki 连续编码源语音并生成目标语音。通过简单的温度采样，Hibiki 兼容批处理，并且可以通过调整 Classifier-Free Guidance 系数来控制语音传输的保真度。多平台支持： Hibiki 提供了适用于 PyTorch、Rust、MLX（macOS）和 MLX-swift（iOS）的推理代码。目前支持法语到英语的翻译，较小的 Hibiki-M 模型可以在智能手机硬件上本地运行。 Hibiki的技术： Hibiki是一种通过精确的同步算法，能迅速地将一种语言的语音翻译成另一种语言的语音或文本的解码模型。这一技术的核心在于它多流语言模型，能够在语音识别和翻译过程中，实时生成音频和文本输出。还有，Hibiki还支持声音特征迁移，可以在翻译过程中保留说话者的语调和情感，使翻译的效果更自然和真实。不过，由于需要进行语音数据的传输和云计算处理，它对网络的要求较高。如果网络信号不好，可能会出现识别错误或者翻译延迟的现象。 Hibiki应用场景：商务会议：对于跨国商务人士，在会议或者商务宴请等场合，Hibiki可以帮助与会者进行即时翻译，消除语言障碍。在线教育：在教育平台中，Hibiki能够提供实时语音翻译，帮助不同语言背景的学生进行更好的学习和交流。旅游翻译：在国外旅游时，方便游客与当地人进行简单的交流，如问路、点餐等。游客可以直接对着手机说出自己的需求，然后得到翻译后的语音或文字回复。医患沟通：在医院等场所，Hibiki可以辅助医生与患者之间的沟通。 GitHub: https://github.com/kyutai-labs/hibiki

数据统计

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Hibiki

数据统计

相关导航

腾讯混元DiT

星流图像大模型

言犀

书生·浦语 InternLM

序列猴子

RMBG-2.0

RAGFlow

FunAudioLLM

暂无评论

网址

水果派TV解说视频

丫丫动漫

bt磁力天堂

虫虫影视

龙腾网

Galgamex

热门推荐