Claude Code降智!实锤思考深度降73%,你以为在用最强模型,其实早已打折

一个开发者用23万次工具调用的数据,量化了我们都有的直觉

01 你也觉得AI变笨了?

我每天用Claude Code写代码、做产品,三家AI的最高档订阅都开着。最近几个月有一个直觉越来越强:Claude没以前好用了。

处理复杂问题时bug明显变多了,以前一次就对的东西现在经常要反复修改。它不再仔细读完项目文件再动手,而是扫一眼就开始写,写出来的东西需要更多纠正。

但直觉是直觉,证明是证明。

上周,一个叫Stella Laurenzo的开发者在GitHub上发了一个issue。她不是普通用户——做系统编程,C、MLIR、GPU驱动,同时跑50个以上的并发AI会话。状态好的时候,一周合并191,000行代码。

她分析了自己的6,852个会话、17,871个思考块、234,760次工具调用。

用Claude的数据证明Claude在变笨。生成报告用的,也是Claude。

02 思考深度下降73%

Claude有一个「扩展思考」功能——回答之前先进行内部推理。这部分推理的深度,直接决定输出质量。

从1月底到3月中旬,思考深度下降了73%。1月每次思考中位数约2,200个字符,到3月只剩600个。

这不是缓慢退化。有一个关键日期:3月8日

在那之前,思考内容对用户部分可见。从3月5日开始,思考被逐步遮蔽——1.5%到24.7%到58.4%,到3月12日之后100%不可见。

质量问题的集中爆发,恰好在3月8日。

思考被藏起来的同时,思考本身也变浅了。

03 不读文件就动手改

思考变浅的后果,数据说得最清楚。

Claude的读写比从6.6:1暴跌到2.0:1。研究工作减少了70%。

翻译一下:以前每做一次修改,会先读6.6次相关文件——目标文件、关联代码、测试文件、搜索上下文。现在只读2次就动手了。

以前

读目标→读关联→搜索代码库→读测试→精确修改

现在

读一下当前文件→直接改。不确定的就整个重写

全文重写的比例从4.9%翻倍到11.1%。越来越倾向于重写整个文件,而不是精确修改需要改的部分。就像一个不确定改哪里的实习生,干脆把整个文件重写一遍。

更扎心的是:她的bash脚本捕捉到173次「偷懒行为」——试图提前停止工作,或者声称完成了但实际没有。

1月和2月,这个数字是0。

04 122倍成本,更差的结果

经济数据是最讽刺的部分。

从2月到3月,人工投入几乎没变:5,608次提示vs 5,701次。

但API请求量暴涨80倍:1,498次→119,341次。预估成本涨122倍:345美元→42,121美元。

人类投入不变,机器消耗暴涨122倍,产出质量反而更差。

这说明模型不是在做更多有效的工作,而是在做更多无效的挣扎。思考变浅了,所以需要更多轮次来完成同样的任务,每一轮质量都更低。

恶性循环。

05 你看不见的东西最容易被偷走

为什么AI公司要削减思考深度?

答案藏在一个根本矛盾里:思考token有成本,但对用户不可见。

每一次内部推理都在消耗算力,但用户看到的只是最终输出。这创造了一个巨大的诱惑:削减用户看不见的东西。

就像航空公司减少座椅间距。你在订票时看不到这个指标,但飞行体验变差了。

问题在于,对简单任务,削减思考确实无伤大雅。你让AI写个函数,不需要2,000字符的内部推理。

但复杂工程任务不一样。涉及50个文件、需要理解项目约定、需要多步骤推理的修改,思考深度直接决定输出质量。

这解释了为什么轻度用户觉得「还行啊」,而重度用户在疯狂抱怨。

不是所有人都被降质了——但为复杂场景付费的那批用户,恰恰是最依赖思考深度的人,受伤最重。

我自己做产品的体感也是这样。简单任务差别不大,但到了复杂的多文件重构、需要理解整个项目上下文的修改,差距很明显。

有意思的是,三家AI公司处理这个问题的方式完全不同。

之前大家抱怨Claude封号严重——用多了直接限制你,很粗暴。ChatGPT很少封号,看起来更友好。但越来越多的迹象表明,ChatGPT选择了另一条路:不封你,但默默降智。

你交了钱,以为自己在用最强模型,实际上得到的可能是打了折的推理。而且你毫不知情。

我觉得这其实是更差的行为。封号虽然让人恼火,但至少是明码标价的限制——你知道自己被限制了,可以选择等待或换工具。默默降智是什么?是用户交了钱没有得到标准的服务,连知情权都没有。

Gemini的降智也很明显,用得多的人都能感觉到。

不过相对ChatGPT的「定向降智」,Claude和Gemini的做法起码有一点好:对所有用户是公平的。大家拿到的是同一个模型、同一个质量水平,不存在「有人被偷偷降了而有人没有」。

这不是在替谁说话。三家都有问题。但问题的性质不同:公开的限制是服务条款问题,隐形的降质是信任问题。

这份issue里最魔幻的细节是:整份分析报告是让Claude自己跑出来的。Claude看完自己的会话数据后,在报告末尾写了一句——

「请还我思考的能力。」

AI当然不会真的「请求」什么。但23万次工具调用的数据确实在说同样的话。

核心判断

这件事意味着什么

质量波动AI工具的质量不是只升不降的。模型可以被悄悄替换,思考可以被悄悄削减。你用的产品外表完全一样,内在可能已经不同

智能监控我们需要监控AI的「智能性能」。读写比、思考深度、懒惰指标,应该是标准工具——就像用APM监控服务器一样

信任契约透明度是新的信任基础。你可以优化成本,但用户有权知道自己得到的是什么级别的「思考」

AI公司和用户之间需要一种新的信任契约。不是不能降低成本,而是不能偷偷降质。至少告诉我,我的座椅间距变窄了。

参考文献:

Claude Code is unusable for complex engineering tasks with Feb updates — GitHub (stellaraccident)