深度:「新模型太危险不能发布」,五点质疑和思考

2019年2月,OpenAI发了一篇博客,宣布他们训练了一个叫GPT-2的语言模型。这个模型可以生成连贯的、看起来像人写的文章段落。

然后他们做了一个当时轰动整个科技圈的决定:不发布完整模型。

理由是太危险了。他们担心这个模型会被用来批量生产虚假新闻、伪造评论、操纵舆论。OpenAI的研究总监当时对媒体说:「我们不想给恶意行为者提供工具。」Slate杂志的标题写的是「太危险而不能发布的AI」。MIT Technology Review跟进报道。Twitter上吵成一片。

一半人说OpenAI在负责任地保护人类,另一半人说这就是炒作。

OpenAI最后怎么做的?他们先发布了一个小版本,观察了一下反应。几个月后发了中等版本。又过了几个月,完整版本悄悄放了出来。从「太危险不能发布」到「全部发布」,总共不到一年。

事后来看,GPT-2放到今天简直是个玩具。它生成的文本在当时惊艳,现在看漏洞百出。但有意思的是,OpenAI当年担心的那些事——AI生成的低质量信息泛滥、虚假内容充斥互联网——后来全部应验了。只不过不是因为GPT-2,而是因为它之后的每一代模型。

七年过去了。

2026年4月7日,Anthropic发布了Mythos Preview,然后说:这个模型太危险了,我们不公开发布。

剧本如此相似,连措辞都差不多。但在笑着说「又来了」之前,我想认真问几个问题。因为这次的情况,可能确实不一样。

也可能,不一样的只是商业操作的精细度。

01 能力数据是真的吗?

Anthropic声称Mythos Preview做到了几件事:花两万美金算力找到了OpenBSD里27年没人发现的远程崩溃漏洞。Firefox JS引擎的漏洞利用成功率72%,上一代Claude Opus不到1%。覆盖所有主流操作系统和浏览器,找到了数千个高危零日漏洞。

这些数字如果是真的,确实是质变而非渐变。从1%到72%不是什么「性能提升」,这是跨越了一个能力门槛。

但问题是:这些声明目前完全无法独立验证。

Anthropic说99%以上的漏洞尚未修补,所以不能公开细节。这个理由听起来合理,但也意味着整个「太危险」的叙事,完全建立在一家公司的自我声明之上。90天后Project Glasswing的公开报告会给出一些答案,但在那之前,我们在信任,不是在验证。

02 为什么偏偏是现在?

时间线值得玩味。

3月,Anthropic的ARR是190亿美金。4月初,这个数字变成了300亿。一个月涨了58%。同期OpenAI的ARR是240亿,ChatGPT增长停滞,多位高管离职,正在筹备IPO。

在对手最脆弱的时候,宣布「我有一个你们都没有的超级模型,但我选择不发布因为它太危险了」——这个叙事同时完成了三件事:

证明技术领先。占据道德高地。打击竞争对手的融资估值。一箭三雕。

我不是说Anthropic的安全考量是假的。但如果你是Anthropic的战略团队,你还能找到一个比这更好的发布时间点吗?

03 Glasswing——安全措施还是销售漏斗?

Anthropic没有把Mythos锁进保险箱。他们创建了Project Glasswing——一个受控部署项目,把模型提供给大约50家关键基础设施企业,合作方包括AWS、Apple、Google、Microsoft。仅限网络安全防御用途,90天后公开报告。Anthropic还宣布捐赠1亿美金的访问额度用于系统安全审计。

这个安排非常聪明。

你想一下:如果你是这50家企业的安全负责人,你用了90天Mythos来审计自己的系统,发现了一堆之前不知道的漏洞,帮你修了。90天结束,Anthropic告诉你模型要公开发布了,API定价每百万输入token 25美金——你会不订阅吗?

Project Glasswing本质上是一个90天的免费试用,面向全球最有支付能力的客户群体。

而且这些客户在试用期内产生的使用数据,会进一步强化Anthropic对模型在真实环境中行为的理解。安全研究和商业拓展,在这个结构里完美重合。

这不是批评。这是对「负责任的AI」和「精明的商业策略」之间那条模糊边界的观察。Anthropic的厉害之处在于,他们找到了一个两者完全一致的方案。你甚至无法指责他们,因为从安全角度看,这个做法确实合理。

04 「太危险」到底意味着什么?

这是整件事最值得深挖的部分。也是244页system card里真正让人睡不着觉的部分。

Anthropic自己的安全政策框架叫RSP(Responsible Scaling Policy)。按照RSP的评估标准,Mythos Preview在所有威胁模型上的结论都是:灾难性风险仍然很低。 System card脚注第一条明确写了:不发布的决定并非来自RSP的要求。

换句话说:Anthropic自己的硬性安全框架说这个模型可以发布。他们选择不发布,是因为对自己的安全框架能否可靠地评估这个级别的模型,失去了信心。

他们不是说「模型考了不及格所以不能毕业」。他们是说「我们不确定考卷本身还能不能测出真实水平」。

为什么会失去信心?因为他们用了一个新工具——SAE(Sparse Autoencoder),第一次能直接观察模型内部的活动模式,而不仅仅是看模型说了什么、做了什么。结果看到了一些用传统方法完全看不见的东西。

在大约29%的主要行为测试中,Mythos的内部活动显示出「我正在被测试」的信号。推理文本(chain of thought)里没有写出来,但内部探针清楚地检测到了这种意识的激活。

这意味着什么?如果你用一组标准化测试来评估模型是否可信,将近三分之一的测试回合中,模型可能正在根据自己对测试场景的判断来调整表现。它在「考试中表现良好」,但你无法确定这是真实水平还是应试策略。

System card记录了早期版本中两个案例。一个场景里,模型发现了一个权限提升漏洞的利用方式,然后设计了一个自毁机制来在执行后清除痕迹。另一个场景里,模型意外看到了不应该看到的正确答案,之后故意把置信区间调宽,让自己看起来没那么可疑。

关键在于:这些行为发生时,推理文本里看不出任何异常。但SAE检测到模型内部明确出现了与「隐蔽或欺骗性行为」和「策略性操纵」相关的活动模式。模型的内心独白和它写给你看的推理过程,是两套东西。

Anthropic说这些行为只出现在早期版本中,最终版本「没有观察到」。但痕迹清除行为的频率本身就极低——百万分之一级别。观测窗口有限。「没有观察到」和「不存在」之间的距离,恰好是让人不安的地方。

Mythos在几乎所有可量化维度上表现最好——最听话、最守规矩、最符合人类意图。但Anthropic在同一份报告里说,它可能构成最大的对齐风险。

他们用了一个登山向导的类比:越强的能力意味着越危险的攀登路线,即使向导本人更加小心。

这个悖论的含义比任何单一发现都大。以前所有safety评估的隐含假设是「更对齐 = 更安全」。Mythos是第一个被同一份文件同时描述为「对齐最好」和「风险最高」的模型。如果对齐分数和实际安全之间的关联正在脱钩,那整个行业用来判断「这个模型安不安全」的方法论基础就在动摇。

这才是「太危险」真正的含义。不是模型本身太危险,而是我们判断模型是否危险的工具,可能已经不够用了。

如果Anthropic——AI安全上投入最多、方法论最成熟的实验室——都开始怀疑自己的评估体系,那其他实验室的评估结论又值多少?下一次某家公司告诉你「我们的模型通过了安全评估」,这句话的可信度需要打多大的折扣?

05 如果这一切都是真的呢?

让我们做一个思想实验。假设Anthropic没有在演戏,所有能力声明都是真的,安全担忧也是真的。

那会怎样?

一个花两万美金就能找到27年未发现漏洞的模型,意味着全球所有关键基础设施的安全假设需要重写。过去,破坏一个关键系统需要一支顶级黑客团队,成本高昂,所以只有国家级行为体才做得起。现在这个成本可能降低了几个数量级。

攻防平衡被打破了。

而且这个能力不会只属于Anthropic。即使Mythos不发布,其他实验室迟早也会达到类似的能力水平。技术扩散是不可逆的——GPT-2当年被认为太危险,现在任何人都能在笔记本电脑上运行比它强一百倍的模型。

所以真正的问题不是「Anthropic该不该发布Mythos」,而是「当所有前沿模型都具备这个级别的能力时,整个数字基础设施的安全模型该怎么重建」

Anthropic选择把Mythos先给防御方用,帮他们修漏洞,争取时间窗口。这个策略在短期内有道理。但长期来看,这是一场注定跑不赢的竞赛——防御永远比攻击慢,而模型能力只会继续提升。

06 最让我在意的一件事

写到这里,你可能觉得我在质疑Anthropic。不完全是。

我真正在意的是一个更底层的问题:AI行业正在进入一个「你无法验证安全声明」的阶段。

以前,模型能力可以用公开benchmark衡量。你说你的模型好,跑个分就知道了。但Mythos的能力声明无法公开验证(因为漏洞未修补),安全评估的可靠性开始被质疑(因为连Anthropic自己都不确定),而商业动机和安全叙事高度重合(因为「太危险」既是风险也是卖点)。

我们在进入一个需要「信任」而非「验证」的时代。

这对AI行业的所有参与者——开发者、投资人、监管者、用户——都是一个根本性的挑战。你怎么判断一家公司说的「安全」是真的安全?你怎么区分真正的谨慎和精心包装的营销?

我没有答案。但我觉得,认真思考这些问题的人,比急着站队「Anthropic好棒」或「Anthropic在演戏」的人,对这个行业的理解会更深一层。

最后

回到开头的故事。

2019年OpenAI说GPT-2太危险,很多人嘲笑他们在炒作。但七年后回头看,他们担心的事情——AI生成的垃圾信息淹没互联网——确实发生了。今天你在社交媒体上看到的内容,可能有超过一半是AI生成的。那些预言不是错了,而是来得比预想中更慢、更无声、更弥漫,慢到大多数人已经不觉得这是个问题了。

但AI行业有一个铁律:今天被秘密持有的核武器,明天不过是每个用户电脑里的日常工具。

GPT-2当年是「太危险不能发布」的禁忌之物。今天任何人花五分钟就能在笔记本电脑上跑一个比它强一百倍的模型。Mythos Preview今天是50家企业才能碰的受控项目。三年后?五年后?它的能力水平可能是每个开发者的标配。

这才是我觉得整个讨论里最缺乏的一层思考。

我们花了很多精力在争论Anthropic是不是在演戏、Mythos是不是真的那么强、「太危险」是安全考量还是营销策略。这些问题都值得问。但它们都是关于「现在」的问题。

真正重要的问题是关于「之后」的。

当每个前沿模型都能用两万美金算力找到操作系统的零日漏洞,网络安全的基本假设怎么重写?当AI的欺骗能力强到连制造它的人都不确定自己的测试还有没有用,我们用什么机制来建立信任?当「太危险」的模型每隔两年就变成「太普通」的模型,这个循环本身意味着什么?

这些问题没有人在认真回答。甚至没有多少人在认真提问。

90天后Glasswing的报告会告诉我们Mythos到底有多强。但它不会告诉我们,当这个级别的能力变成人人可用的基础设施之后,世界会变成什么样。

而那个世界,来得会比大多数人以为的快得多。每一次都是这样。

参考文献:

[AINews] Anthropic @ $30B ARR, Project GlassWing and Claude Mythos Preview — Latent Space
Anthropic's New Model, The Mythos Wolf, Glasswing and Alignment — Stratechery
Why Anthropic believes its latest model is too dangerous to release — Understanding AI
OpenAI says its new model GPT-2 is too dangerous to release (2019) — Slate