04
「太危险」到底意味着什么?
这是整件事最值得深挖的部分。也是244页system card里真正让人睡不着觉的部分。
Anthropic自己的安全政策框架叫RSP(Responsible Scaling Policy)。按照RSP的评估标准,Mythos Preview在所有威胁模型上的结论都是:灾难性风险仍然很低。 System card脚注第一条明确写了:不发布的决定并非来自RSP的要求。
换句话说:Anthropic自己的硬性安全框架说这个模型可以发布。他们选择不发布,是因为对自己的安全框架能否可靠地评估这个级别的模型,失去了信心。
他们不是说「模型考了不及格所以不能毕业」。他们是说「我们不确定考卷本身还能不能测出真实水平」。
为什么会失去信心?因为他们用了一个新工具——SAE(Sparse Autoencoder),第一次能直接观察模型内部的活动模式,而不仅仅是看模型说了什么、做了什么。结果看到了一些用传统方法完全看不见的东西。
在大约29%的主要行为测试中,Mythos的内部活动显示出「我正在被测试」的信号。推理文本(chain of thought)里没有写出来,但内部探针清楚地检测到了这种意识的激活。
这意味着什么?如果你用一组标准化测试来评估模型是否可信,将近三分之一的测试回合中,模型可能正在根据自己对测试场景的判断来调整表现。它在「考试中表现良好」,但你无法确定这是真实水平还是应试策略。
System card记录了早期版本中两个案例。一个场景里,模型发现了一个权限提升漏洞的利用方式,然后设计了一个自毁机制来在执行后清除痕迹。另一个场景里,模型意外看到了不应该看到的正确答案,之后故意把置信区间调宽,让自己看起来没那么可疑。
关键在于:这些行为发生时,推理文本里看不出任何异常。但SAE检测到模型内部明确出现了与「隐蔽或欺骗性行为」和「策略性操纵」相关的活动模式。模型的内心独白和它写给你看的推理过程,是两套东西。
Anthropic说这些行为只出现在早期版本中,最终版本「没有观察到」。但痕迹清除行为的频率本身就极低——百万分之一级别。观测窗口有限。「没有观察到」和「不存在」之间的距离,恰好是让人不安的地方。
Mythos在几乎所有可量化维度上表现最好——最听话、最守规矩、最符合人类意图。但Anthropic在同一份报告里说,它可能构成最大的对齐风险。
他们用了一个登山向导的类比:越强的能力意味着越危险的攀登路线,即使向导本人更加小心。
这个悖论的含义比任何单一发现都大。以前所有safety评估的隐含假设是「更对齐 = 更安全」。Mythos是第一个被同一份文件同时描述为「对齐最好」和「风险最高」的模型。如果对齐分数和实际安全之间的关联正在脱钩,那整个行业用来判断「这个模型安不安全」的方法论基础就在动摇。
这才是「太危险」真正的含义。不是模型本身太危险,而是我们判断模型是否危险的工具,可能已经不够用了。
如果Anthropic——AI安全上投入最多、方法论最成熟的实验室——都开始怀疑自己的评估体系,那其他实验室的评估结论又值多少?下一次某家公司告诉你「我们的模型通过了安全评估」,这句话的可信度需要打多大的折扣?