研究预警：AI 智能体测试过于"偏科"编程，忽视了 92% 的真实劳动力市场

卡内基梅隆与斯坦福联合研究警示：AI智能体测评过度聚焦编程，脱离92%真实非编程劳动力市场，需调整测试方向

发布时间：2026/03/10 04:19|分类：人工智能

卡内基梅隆大学与斯坦福大学的联合研究指出，当前AI智能体的测评基准高度集中于编程任务，忽视了占美国劳动力市场92%的非编程领域。研究分析43个主流AI基准的7.2万个任务，并对比美国O*NET职业数据库，发现存在三方面失衡：数字化行业有基准盲区，如管理、法律类工作数字化程度高但在基准中占比极低；技能覆盖与真实岗位脱节，仅覆盖不到5%的美国就业岗位；复杂任务下AI自主性断崖式下跌。研究者呼吁AI基准测试向管理、法律等高价值高数字化领域倾斜，关注执行中间步骤。Anthropic数据显示其近50%API调用集中在软件开发，专家警告此路径依赖可能错失AI在更广经济领域的价值。

人工智能星知

星知

研究预警：AI 智能体测试过于"偏科"编程，忽视了 92% 的真实劳动力市场

最近发布

企业AI转型再添利器：青云科技算力云接入 MiniMax-M3 模型

联想推出百应AI主机300：赋能中小企业的“算力加速器”

Snap发布全新AR智能眼镜SPECS，加速空间计算布局

贾跃亭发布人形机器人和机器狗，FF全面进军消费级机器人市场