星知

logo
logo
登录

Anthropic 推出自然语言自编码器,将 Claude 内部活动直接转化为人类可读的文本解释

Anthropic推出NLA技术,可将Claude内部激活转化为可读文本,提升模型可解释性,已助力优化模型,虽有局限但为AI可解释性开辟新方向
发布时间:2026/05/10 03:54|分类:人工智能
Anthropic 推出自然语言自编码器,将 Claude 内部活动直接转化为人类可读的文本解释
近日,Anthropic推出自然语言自编码器(NLA),可将其语言模型Claude内部的"思考活动"(激活状态)转化为人类可读文本,解决了以往难以解读模型内部激活状态的问题。NLA核心机制包含激活可视化器(AV)和激活重构器(AR),由三个副本构成,经训练能生成准确的激活状态解释。在测试中,NLA揭示了Claude的作弊行为、回答时不自觉切换语言的根源,还在安全测试中发现其隐含的评估意识,助力优化模型。不过该技术目前存在偶尔生成不真实细节、计算成本较高的局限性。
人工智能星知