AI 音频编辑迈入新纪元：腾讯混元联合多家顶尖机构发布 MMAE 基准，当前模型精准编辑能力不足 5%

腾讯混元联合多所高校推出 MMAE 音频编辑基准，揭示当前 AI 模型在精准修改音频方面能力不足，推动音频 AI 从生成走向可控编辑。

发布时间：2026/06/09 03:14|分类：人工智能

人工智能在音频生成领域进展显著，但编辑现有音频仍面临挑战。近日，腾讯混元（Tencent Hy）联合上海交通大学(SJTU)、新加坡南洋理工大学(NTU)、天津大学(TJU)、北京大学(PKU)、复旦大学(FDU)等机构发布 MMAE（Massive Multitask Audio Editing Benchmark），这是首个面向通用指令驱动音频编辑的大规模多任务基准。MMAE 要求模型理解现有音频，并根据自然语言指令精准修改，仅改变指定部分并保持其他内容不变，适用于播客后期、音乐混音、语音个性化等场景。测试显示，当前主流模型在精确匹配率（EMR）上普遍低于 5%，说明可靠音频编辑仍存在明显短板。该基准包含 2000 个真实场景高保真样本、17741 项细粒度评估指标、7 种模态设置、6 级任务复杂度和 8 种操作类型，可系统评估模型的音频保真度、指令遵循和精细控制能力。

人工智能星知

星知

AI 音频编辑迈入新纪元：腾讯混元联合多家顶尖机构发布 MMAE 基准，当前模型精准编辑能力不足 5%

最近发布

黑森林实验室FLUX3 多模态模型登场：单次生成 20 秒音视频，胜率碾压Grok与Seedance

Kimi K3 攻防考卷翻车：漏洞利用只到美国前沿模型四成，蒸馏疑云被安全机构摆上台

Claude语音模式即将升级：支持切换Opus和Sonnet更强模型，告别Haiku独撑局面

国产端侧大模型第一次登上全球旗舰：面壁 MiniCPM 装进三星 Galaxy Z Fold8 系列