星知

logo
logo
登录

研究预警:AI 智能体测试过于"偏科"编程,忽视了 92% 的真实劳动力市场

卡内基梅隆与斯坦福联合研究警示:AI智能体测评过度聚焦编程,脱离92%真实非编程劳动力市场,需调整测试方向
发布时间:2026/03/10 04:19|分类:人工智能
研究预警:AI 智能体测试过于"偏科"编程,忽视了 92% 的真实劳动力市场
卡内基梅隆大学与斯坦福大学的联合研究指出,当前AI智能体的测评基准高度集中于编程任务,忽视了占美国劳动力市场92%的非编程领域。研究分析43个主流AI基准的7.2万个任务,并对比美国O*NET职业数据库,发现存在三方面失衡:数字化行业有基准盲区,如管理、法律类工作数字化程度高但在基准中占比极低;技能覆盖与真实岗位脱节,仅覆盖不到5%的美国就业岗位;复杂任务下AI自主性断崖式下跌。研究者呼吁AI基准测试向管理、法律等高价值高数字化领域倾斜,关注执行中间步骤。Anthropic数据显示其近50%API调用集中在软件开发,专家警告此路径依赖可能错失AI在更广经济领域的价值。
人工智能星知