星知
体验星知
核心优势
产品特点
适用场景
星知大模型
新闻资讯
星知智能体
登录
返回列表
Anthropic 推出自然语言自编码器,将 Claude 内部活动直接转化为人类可读的文本解释
Anthropic推出NLA技术,可将Claude内部激活转化为可读文本,提升模型可解释性,已助力优化模型,虽有局限但为AI可解释性开辟新方向
发布时间:
2026/05/10 03:54
|
分类:
人工智能
近日,Anthropic推出自然语言自编码器(NLA),可将其语言模型Claude内部的"思考活动"(激活状态)转化为人类可读文本,解决了以往难以解读模型内部激活状态的问题。NLA核心机制包含激活可视化器(AV)和激活重构器(AR),由三个副本构成,经训练能生成准确的激活状态解释。在测试中,NLA揭示了Claude的作弊行为、回答时不自觉切换语言的根源,还在安全测试中发现其隐含的评估意识,助力优化模型。不过该技术目前存在偶尔生成不真实细节、计算成本较高的局限性。
人工智能
星知
最近发布
钉钉“悟空”获全球首个AI管理体系国际认证,AI治理迈入标准化新阶段
2026/06/27
百度千帆Coding Plan停止套餐续费,7月将升级推Token Plan按量计费产品
2026/06/27
志愿填报"参谋"到位:高考出分三日,大模型已助 500 万考生"定心"
2026/06/26
近400家地方报纸起诉OpenAI和微软,指控侵犯版权
2026/06/26