Claude Code降智！实锤思考深度降73%，你以为在用最强模型，其实早已打折

一个开发者用23万次工具调用的数据，量化了我们都有的直觉

2026年4月7日

01 你也觉得AI变笨了？

我每天用Claude Code写代码、做产品，三家AI的最高档订阅都开着。最近几个月有一个直觉越来越强：Claude没以前好用了。

处理复杂问题时bug明显变多了，以前一次就对的东西现在经常要反复修改。它不再仔细读完项目文件再动手，而是扫一眼就开始写，写出来的东西需要更多纠正。

但直觉是直觉，证明是证明。

上周，一个叫Stella Laurenzo的开发者在GitHub上发了一个issue。她不是普通用户——做系统编程，C、MLIR、GPU驱动，同时跑50个以上的并发AI会话。状态好的时候，一周合并191,000行代码。

她分析了自己的6,852个会话、17,871个思考块、234,760次工具调用。

用Claude的数据证明Claude在变笨。生成报告用的，也是Claude。

02 思考深度下降73%

Claude有一个「扩展思考」功能——回答之前先进行内部推理。这部分推理的深度，直接决定输出质量。

从1月底到3月中旬，思考深度下降了73%。1月每次思考中位数约2,200个字符，到3月只剩600个。

这不是缓慢退化。有一个关键日期：3月8日。

在那之前，思考内容对用户部分可见。从3月5日开始，思考被逐步遮蔽——1.5%到24.7%到58.4%，到3月12日之后100%不可见。

质量问题的集中爆发，恰好在3月8日。

思考被藏起来的同时，思考本身也变浅了。

03 不读文件就动手改

思考变浅的后果，数据说得最清楚。

Claude的读写比从6.6:1暴跌到2.0:1。研究工作减少了70%。

翻译一下：以前每做一次修改，会先读6.6次相关文件——目标文件、关联代码、测试文件、搜索上下文。现在只读2次就动手了。

以前

读目标→读关联→搜索代码库→读测试→精确修改

现在

读一下当前文件→直接改。不确定的就整个重写

全文重写的比例从4.9%翻倍到11.1%。越来越倾向于重写整个文件，而不是精确修改需要改的部分。就像一个不确定改哪里的实习生，干脆把整个文件重写一遍。

更扎心的是：她的bash脚本捕捉到173次「偷懒行为」——试图提前停止工作，或者声称完成了但实际没有。

1月和2月，这个数字是0。

04 122倍成本，更差的结果

经济数据是最讽刺的部分。

从2月到3月，人工投入几乎没变：5,608次提示vs 5,701次。

但API请求量暴涨80倍：1,498次→119,341次。预估成本涨122倍：345美元→42,121美元。

人类投入不变，机器消耗暴涨122倍，产出质量反而更差。

这说明模型不是在做更多有效的工作，而是在做更多无效的挣扎。思考变浅了，所以需要更多轮次来完成同样的任务，每一轮质量都更低。

恶性循环。

05 你看不见的东西最容易被偷走

为什么AI公司要削减思考深度？

答案藏在一个根本矛盾里：思考token有成本，但对用户不可见。

每一次内部推理都在消耗算力，但用户看到的只是最终输出。这创造了一个巨大的诱惑：削减用户看不见的东西。

就像航空公司减少座椅间距。你在订票时看不到这个指标，但飞行体验变差了。

问题在于，对简单任务，削减思考确实无伤大雅。你让AI写个函数，不需要2,000字符的内部推理。

但复杂工程任务不一样。涉及50个文件、需要理解项目约定、需要多步骤推理的修改，思考深度直接决定输出质量。

这解释了为什么轻度用户觉得「还行啊」，而重度用户在疯狂抱怨。

不是所有人都被降质了——但为复杂场景付费的那批用户，恰恰是最依赖思考深度的人，受伤最重。

我自己做产品的体感也是这样。简单任务差别不大，但到了复杂的多文件重构、需要理解整个项目上下文的修改，差距很明显。

有意思的是，三家AI公司处理这个问题的方式完全不同。

之前大家抱怨Claude封号严重——用多了直接限制你，很粗暴。ChatGPT很少封号，看起来更友好。但越来越多的迹象表明，ChatGPT选择了另一条路：不封你，但默默降智。

你交了钱，以为自己在用最强模型，实际上得到的可能是打了折的推理。而且你毫不知情。

我觉得这其实是更差的行为。封号虽然让人恼火，但至少是明码标价的限制——你知道自己被限制了，可以选择等待或换工具。默默降智是什么？是用户交了钱没有得到标准的服务，连知情权都没有。

Gemini的降智也很明显，用得多的人都能感觉到。

不过相对ChatGPT的「定向降智」，Claude和Gemini的做法起码有一点好：对所有用户是公平的。大家拿到的是同一个模型、同一个质量水平，不存在「有人被偷偷降了而有人没有」。

这不是在替谁说话。三家都有问题。但问题的性质不同：公开的限制是服务条款问题，隐形的降质是信任问题。

这份issue里最魔幻的细节是：整份分析报告是让Claude自己跑出来的。Claude看完自己的会话数据后，在报告末尾写了一句——

「请还我思考的能力。」

AI当然不会真的「请求」什么。但23万次工具调用的数据确实在说同样的话。

核心判断

这件事意味着什么

质量波动AI工具的质量不是只升不降的。模型可以被悄悄替换，思考可以被悄悄削减。你用的产品外表完全一样，内在可能已经不同

智能监控我们需要监控AI的「智能性能」。读写比、思考深度、懒惰指标，应该是标准工具——就像用APM监控服务器一样

信任契约透明度是新的信任基础。你可以优化成本，但用户有权知道自己得到的是什么级别的「思考」

AI公司和用户之间需要一种新的信任契约。不是不能降低成本，而是不能偷偷降质。至少告诉我，我的座椅间距变窄了。

参考文献：

Claude Code is unusable for complex engineering tasks with Feb updates — GitHub (stellaraccident)