星知
体验星知
核心优势
产品特点
适用场景
星知大模型
新闻资讯
星知智能体
登录
返回列表
Anthropic 推出自然语言自编码器,将 Claude 内部活动直接转化为人类可读的文本解释
Anthropic推出NLA技术,可将Claude内部激活转化为可读文本,提升模型可解释性,已助力优化模型,虽有局限但为AI可解释性开辟新方向
发布时间:
2026/05/10 03:54
|
分类:
人工智能
近日,Anthropic推出自然语言自编码器(NLA),可将其语言模型Claude内部的"思考活动"(激活状态)转化为人类可读文本,解决了以往难以解读模型内部激活状态的问题。NLA核心机制包含激活可视化器(AV)和激活重构器(AR),由三个副本构成,经训练能生成准确的激活状态解释。在测试中,NLA揭示了Claude的作弊行为、回答时不自觉切换语言的根源,还在安全测试中发现其隐含的评估意识,助力优化模型。不过该技术目前存在偶尔生成不真实细节、计算成本较高的局限性。
人工智能
星知
最近发布
号称"危险"的AI扫描17.6万行代码后,仅揪出一个低危漏洞
2026/05/13
麦芽 AI 入选省级优秀典型案例!湖南元数科技领跑未来产业新赛道
2026/05/13
影视飓风 Tim 大胆预测:通 AI 问世后或将导致全员失业
2026/05/12
广东省新增 6 款已完成登记生成式人工智能服务,腾讯音乐等企业在列
2026/05/12