卡内基梅隆大学与斯坦福大学的联合研究指出,当前AI智能体的测评基准高度集中于编程任务,忽视了占美国劳动力市场92%的非编程领域。研究分析43个主流AI基准的7.2万个任务,并对比美国O*NET职业数据库,发现存在三方面失衡:数字化行业有基准盲区,如管理、法律类工作数字化程度高但在基准中占比极低;技能覆盖与真实岗位脱节,仅覆盖不到5%的美国就业岗位;复杂任务下AI自主性断崖式下跌。研究者呼吁AI基准测试向管理、法律等高价值高数字化领域倾斜,关注执行中间步骤。Anthropic数据显示其近50%API调用集中在软件开发,专家警告此路径依赖可能错失AI在更广经济领域的价值。