人工智能在音频生成领域进展显著,但编辑现有音频仍面临挑战。近日,腾讯混元(Tencent Hy)联合上海交通大学(SJTU)、新加坡南洋理工大学(NTU)、天津大学(TJU)、北京大学(PKU)、复旦大学(FDU)等机构发布 MMAE(Massive Multitask Audio Editing Benchmark),这是首个面向通用指令驱动音频编辑的大规模多任务基准。MMAE 要求模型理解现有音频,并根据自然语言指令精准修改,仅改变指定部分并保持其他内容不变,适用于播客后期、音乐混音、语音个性化等场景。测试显示,当前主流模型在精确匹配率(EMR)上普遍低于 5%,说明可靠音频编辑仍存在明显短板。该基准包含 2000 个真实场景高保真样本、17741 项细粒度评估指标、7 种模态设置、6 级任务复杂度和 8 种操作类型,可系统评估模型的音频保真度、指令遵循和精细控制能力。