星知

logo
logo
登录

AI 音频编辑迈入新纪元:腾讯混元联合多家顶尖机构发布 MMAE 基准,当前模型精准编辑能力不足 5%

腾讯混元联合多所高校推出 MMAE 音频编辑基准,揭示当前 AI 模型在精准修改音频方面能力不足,推动音频 AI 从生成走向可控编辑。
发布时间:2026/06/09 03:14|分类:人工智能
人工智能在音频生成领域进展显著,但编辑现有音频仍面临挑战。近日,腾讯混元(Tencent Hy)联合上海交通大学(SJTU)、新加坡南洋理工大学(NTU)、天津大学(TJU)、北京大学(PKU)、复旦大学(FDU)等机构发布 MMAE(Massive Multitask Audio Editing Benchmark),这是首个面向通用指令驱动音频编辑的大规模多任务基准。MMAE 要求模型理解现有音频,并根据自然语言指令精准修改,仅改变指定部分并保持其他内容不变,适用于播客后期、音乐混音、语音个性化等场景。测试显示,当前主流模型在精确匹配率(EMR)上普遍低于 5%,说明可靠音频编辑仍存在明显短板。该基准包含 2000 个真实场景高保真样本、17741 项细粒度评估指标、7 种模态设置、6 级任务复杂度和 8 种操作类型,可系统评估模型的音频保真度、指令遵循和精细控制能力。
人工智能星知