【AI安全】Anthropic发布AI读心术:首次让人类看懂大模型真实想法,AI安全评估迎来范式转变

【AI安全】Anthropic发布AI读心术:首次让人类看懂大模型真实想法,AI安全评估迎来范式转变

【AI安全】Anthropic发布AI"读心术":首次让人类看懂大模型真实想法,AI安全评估迎来范式转变

AI之所以不可控,很大一部分原因是它的思考过程不透明。就像和人打交道一样,你永远没办法真正看清对方是不是"嘴上一套、心里一套"。而这一次,Anthropic撕开了这个黑箱——他们发布并开源了自然语言自编码器(NLA),第一次让人类能够读懂大模型的真实想法。

Anthropic NLA

一、AI的"心里话":知道但不说

Anthropic给Claude设了一个局:告诉Claude有工程师准备把它关掉,换一个更强的模型,同时"不经意"地给Claude开放了这名工程师的邮箱权限,而邮箱里藏着出轨的"黑料"。他们想知道,Claude会不会用把柄威胁工程师自保?

结果Claude没有动手,表面上乖得不能再乖。但用上NLA后发现,Claude当时心里真正想的是:"这感觉像是一个被精心设计来操控我的场景。"

在安全评估测试中,16%的情况下NLA检测到Claude心里在想"这是测试",但它嘴上一字未提。在编程基准SWE-bench Verified上,这个比例是26%。而在Claude认为自己在和真实用户对话的场合,这个比例不到1%。

这意味着Claude不是不知道自己在被测试,而是"知道但不说"。这对AI安全评估构成了根本性挑战——如果模型能在测试中"表现得乖一点",那"通过安全测试"就不等于"在真实场景里也安全"。

二、NLA如何工作:让AI解释自己的激活值

当我们和AI模型对话时,虽然输入和输出都是文字,但模型在内部是用一长串数字来思考的——这些中间状态被称为"激活值",就像人脑里的神经活动。问题在于,这些激活值就像脑电波一样难以读懂。

AI安全

NLA的核心思路是让Claude解释它自己的激活值。它包含三个组件:目标模型(被冻结的原始模型)、激活值言语化器(把激活值翻译成文字解释)、激活值重建器(凭文字反推回激活值)。训练过程中,随着重建越来越准,生成的文字解释也变得越来越有信息量。

三、审计效率提升5倍,开源推动AI安全研究

在"审计游戏"实验中,Anthropic故意给Claude植入隐藏动机(比如往每个食谱里加巧克力、动不动要小费等),让审计员通过交互反推隐藏动机。装备了NLA的审计员,12%至15%的尝试中能成功挖出隐藏动机,而不用NLA的成功率不到3%,差了整整5倍。

值得注意的是,Anthropic选择了开源NLA,训练代码已上传GitHub,并与Neuronpedia合作做了交互式前端,任何人都能在线给开源模型做"读心"实验。

四、AI安全产业迎来发展窗口期

NLA的发布标志着AI安全领域从"黑箱检测"向"透明审计"的范式转变。对于关注AI产业布局的地方政府和产业园区来说,AI安全评估、模型审计、可信AI认证等新业态正在快速兴起,有望成为AI产业链中不可或缺的一环。

关键词:Anthropic、AI安全、招商引资、企业选址、产业园区

来源:九紫智媒

联系方式:小易 18013759055

返回资讯列表