关于Fable 5被封,这几天你大概刷到过十几个版本:安全叙事翻车、把「安全」拆成流量密码、求锤得锤、模型主权、开源胜利。这些判断我大多同意。
但有一件更要紧的事,几乎没人讲。而且它不会随着Fable解禁而消失。这篇,我想讲的就是它。
要讲清楚它,得先把这场封禁本身看明白:从能力,到逻辑,到底是谁扣的扳机,它每一层都比表面更不对劲。我们从最简单的一个问题开始:这个被全世界喊作「最强」的模型,到底有多强?
发布那两天,从Karpathy到一线工程师,都在喊「世代级跃迁」。先说我的结论:他确实强,但没有网上说的那么神,更不是出来就秒杀一切的那种。
我用Fable做了几个研究任务,产出我很满意,想得全面,该考虑的反方、该交叉的来源基本都铺到了。但真正让我意外的不是「他更聪明了」,而是他干活的方式:在我给他的几个研究任务里,他会一口气派出七十到一百七十多个agent去并行查证。代价是token烧得吓人,几个任务就刷掉惊人的额度。
这让我重新琢磨「能力提升」这四个字。他的进步,模型本身变聪明当然占一部分;但我越来越觉得,更大的一部分来自他做了远超以前的工作量。前沿模型的「强」,正在越来越多地变成「愿意派多少agent、舍得烧多少token」的强,这跟「每一步都更聪明」,是两回事。
可以拿Codex做个对照。我长期同时用Claude和OpenAI最强的模型,单论硬推理、单点攻坚去解一个真正难的问题,Codex其实更强,我觉得这个能力在Fable之上。但他用起来体验差得多:容易钻牛角尖,长任务里又会过度保守,但是你说他严谨吧,他有时还会不打招呼就改掉你的东西。Fable这一系真正的长处,是把速度、体验、推理之间的取舍平衡得好,但绝对推理性能,是不如Codex的。
我用Fable产出的东西,转头让Codex去review,照样能挑出一堆错。
知道了「强在肯下本钱」这件事,再回头看那些被反复引用的跑分,就该多一层警觉。最常被搬运的那个数字,SWE-Bench Pro 80.3%,吊打GPT-5.5的58.6%,这几天几乎被所有中文实测稿当成跨模型的硬实力抄了上去,却没人提一句:它是Anthropic用自家脚手架(scaffold)跑出来的,跨模型根本不能这么比。在统一脚手架的中立榜单(Scale SEAL)上,Fable 5干脆没上榜,同类最高也才59分上下。
同样被到处转的那条「末日能力」证据,「一次扫描揪出OpenBSD一个藏了27年的内核漏洞」,也是他四月一个预览版的旧成果,根本不在这次这三天的窗口里;不少稿子却直接把它记到了这次封禁的账上。
拼到一起,结论很朴素:他是真台阶,尤其在长流程的编程和研究上;但「跨代」「末日武器」这套话术里,安全营销和自家跑分的水分都不小。
这一点之所以重要,是因为接下来这场封禁的全部正当性,恰恰建立在「他强到危险」这个被放大的前提上。前提如果是虚的,后面的逻辑还站得住吗?