星知

logo
logo
登录

Hume AI开源TADA:5倍速零幻觉TTS,能在手机上跑700秒长音频

Hume AI开源TADA文本转语音系统:零幻觉、5倍速生成,支持边缘设备本地推理,可生成700秒长音频
发布时间:2026/03/13 04:18|分类:人工智能
Hume AI开源TADA:5倍速零幻觉TTS,能在手机上跑700秒长音频
Hume AI近日开源发布文本转语音系统TADA(Text-Acoustic Dual Alignment),该系统基于大语言模型,采用创新的文本-声学双对齐架构,在千余测试样本中实现零内容幻觉。其生成速度比同级别LLM TTS系统快5倍以上,每秒音频仅需2-3帧计算资源,可在手机等边缘设备本地推理。TADA支持多语言,拥有1B(英语)和3B多语言预训练模型,2048token上下文窗口可一次性生成约700秒连续音频。此外,该模型具备同步转录功能,生成语音时可直接输出文本转录,无需额外语音识别流程。在人类主观评测中,其自然度和音色相似度排名第二,语音质量竞争力强。模型地址:https://huggingface.co/collections/HumeAI/tada。
人工智能星知