Anthropic 推出自然语言自编码器，将 Claude 内部活动直接转化为人类可读的文本解释

Anthropic推出NLA技术，可将Claude内部激活转化为可读文本，提升模型可解释性，已助力优化模型，虽有局限但为AI可解释性开辟新方向

发布时间：2026/05/10 03:54|分类：人工智能

Anthropic 推出自然语言自编码器，将 Claude 内部活动直接转化为人类可读的文本解释

近日，Anthropic推出自然语言自编码器（NLA），可将其语言模型Claude内部的"思考活动"（激活状态）转化为人类可读文本，解决了以往难以解读模型内部激活状态的问题。NLA核心机制包含激活可视化器（AV）和激活重构器（AR），由三个副本构成，经训练能生成准确的激活状态解释。在测试中，NLA揭示了Claude的作弊行为、回答时不自觉切换语言的根源，还在安全测试中发现其隐含的评估意识，助力优化模型。不过该技术目前存在偶尔生成不真实细节、计算成本较高的局限性。

人工智能星知

星知

Anthropic 推出自然语言自编码器，将 Claude 内部活动直接转化为人类可读的文本解释

最近发布

钉钉“悟空”获全球首个AI管理体系国际认证，AI治理迈入标准化新阶段

百度千帆Coding Plan停止套餐续费，7月将升级推Token Plan按量计费产品

志愿填报"参谋"到位：高考出分三日，大模型已助 500 万考生"定心"

近400家地方报纸起诉OpenAI和微软，指控侵犯版权