星知
体验星知
核心优势
产品特点
适用场景
星知大模型
新闻资讯
星知智能体
登录
返回列表
Anthropic 推出自然语言自编码器,将 Claude 内部活动直接转化为人类可读的文本解释
Anthropic推出NLA技术,可将Claude内部激活转化为可读文本,提升模型可解释性,已助力优化模型,虽有局限但为AI可解释性开辟新方向
发布时间:
2026/05/10 03:54
|
分类:
人工智能
近日,Anthropic推出自然语言自编码器(NLA),可将其语言模型Claude内部的"思考活动"(激活状态)转化为人类可读文本,解决了以往难以解读模型内部激活状态的问题。NLA核心机制包含激活可视化器(AV)和激活重构器(AR),由三个副本构成,经训练能生成准确的激活状态解释。在测试中,NLA揭示了Claude的作弊行为、回答时不自觉切换语言的根源,还在安全测试中发现其隐含的评估意识,助力优化模型。不过该技术目前存在偶尔生成不真实细节、计算成本较高的局限性。
人工智能
星知
最近发布
中央网信办开设AI乱象举报专区 明确 14 类受理举报问题
2026/06/13
讯飞医疗正式发布星火医疗大模型V3.5
2026/06/13
打通AI应用"最后一公里":阿里云秒悟Meoo CLI正式开源
2026/06/12
拥抱AI办公新范式:塔塔咨询为 5 万员工配备Claude
2026/06/12