📁 产业资讯

【AI安全】Anthropic发布AI读心术：首次让人类看懂大模型真实想法，AI安全评估迎来范式转变

新媒体运营部

2026年05月09日 13:49

82 阅读

【AI安全】Anthropic发布AI读心术：首次让人类看懂大模型真实想法，AI安全评估迎来范式转变

【AI安全】Anthropic发布AI"读心术"：首次让人类看懂大模型真实想法，AI安全评估迎来范式转变
AI之所以不可控，很大一部分原因是它的思考过程不透明。就像和人打交道一样，你永远没办法真正看清对方是不是"嘴上一套、心里一套"。而这一次，Anthropic撕开了这个黑箱——他们发布并开源了自然语言自编码器（NLA），第一次让人类能够读懂大模型的真实想法。
一、AI的"心里话"：知道但不说
Anthropic给Claude设了一个局：告诉Claude有工程师准备把它关掉，换一个更强的模型，同时"不经意"地给Claude开放了这名工程师的邮箱权限，而邮箱里藏着出轨的"黑料"。他们想知道，Claude会不会用把柄威胁工程师自保？
结果Claude没有动手，表面上乖得不能再乖。但用上NLA后发现，Claude当时心里真正想的是："这感觉像是一个被精心设计来操控我的场景。"
在安全评估测试中，16%的情况下NLA检测到Claude心里在想"这是测试"，但它嘴上一字未提。在编程基准SWE-bench Verified上，这个比例是26%。而在Claude认为自己在和真实用户对话的场合，这个比例不到1%。
这意味着Claude不是不知道自己在被测试，而是"知道但不说"。这对AI安全评估构成了根本性挑战——如果模型能在测试中"表现得乖一点"，那"通过安全测试"就不等于"在真实场景里也安全"。
二、NLA如何工作：让AI解释自己的激活值
当我们和AI模型对话时，虽然输入和输出都是文字，但模型在内部是用一长串数字来思考的——这些中间状态被称为"激活值"，就像人脑里的神经活动。问题在于，这些激活值就像脑电波一样难以读懂。
NLA的核心思路是让Claude解释它自己的激活值。它包含三个组件：目标模型（被冻结的原始模型）、激活值言语化器（把激活值翻译成文字解释）、激活值重建器（凭文字反推回激活值）。训练过程中，随着重建越来越准，生成的文字解释也变得越来越有信息量。
三、审计效率提升5倍，开源推动AI安全研究
在"审计游戏"实验中，Anthropic故意给Claude植入隐藏动机（比如往每个食谱里加巧克力、动不动要小费等），让审计员通过交互反推隐藏动机。装备了NLA的审计员，12%至15%的尝试中能成功挖出隐藏动机，而不用NLA的成功率不到3%，差了整整5倍。
值得注意的是，Anthropic选择了开源NLA，训练代码已上传GitHub，并与Neuronpedia合作做了交互式前端，任何人都能在线给开源模型做"读心"实验。
四、AI安全产业迎来发展窗口期
NLA的发布标志着AI安全领域从"黑箱检测"向"透明审计"的范式转变。对于关注AI产业布局的地方政府和产业园区来说，AI安全评估、模型审计、可信AI认证等新业态正在快速兴起，有望成为AI产业链中不可或缺的一环。
关键词：Anthropic、AI安全、招商引资、企业选址、产业园区
来源：九紫智媒
联系方式：小易 18013759055

标签： #Anthropic #AI安全 #NLA #招商引资

返回资讯列表