Kyutai发布Unmute语音AI系统：支持10秒语音定制和低延迟对话

— 2025/5/30

法国AI实验室Kyutai近日推出了一款革命性的语音AI系统Unmute，为文本大语言模型（LLM）赋予了强大的语音交互能力。这款高度模块化的语音模型以其智能对话、超低延迟和个性化定制功能引发业界热议。

模块化设计为任何文本模型"加声"

Unmute的核心亮点在于其高度模块化的架构。开发者无需重新训练模型，只需将Unmute"包裹"在现有文本大语言模型上，即可为其快速添加语音输入（语音转文本，STT）和语音输出（文本转语音，TTS）功能。

这种灵活的设计保留了文本模型的推理能力、知识储备和精细调优特性，同时新增了自然流畅的语音交互体验。

Unmute在对话体验上实现了重大突破。智能判断与接话方面，Unmute能够精准判断用户是否完成发言，并在适当的时机进行回应，模拟真实的人类对话节奏。

用户可以随时打断AI的回答，增强交互的灵活性和自然度。文本流式合成功能支持在文本生成未完成时即开始语音合成，大幅降低响应延迟，为实时对话提供了更顺畅的体验。

Unmute的另一大创新是其强大的声音定制功能。仅需10秒的语音样本，即可生成高度个性化的AI声音，满足不同场景下的需求。无论是模拟特定角色的语气，还是调整语音的音调、语速，Unmute都能轻松实现，为用户提供多样化的交互选择。

Kyutai宣布，Unmute的相关模型和代码将在未来几周内完全开源。这一举措将进一步推动语音AI技术的普及与创新，吸引全球开发者的关注。

此前，Kyutai推出的音频原生模型Moshi就曾因其创新性引发热议，而Unmute的模块化设计无疑是Kyutai在语音AI领域的又一力作。Unmute的发布标志着语音AI技术迈向了更高的灵活性和实用性，为教育、客服、娱乐等领域带来了全新的交互可能性。