我每天用Claude Code写代码、做产品,三家AI的最高档订阅都开着。最近几个月有一个直觉越来越强:Claude没以前好用了。
处理复杂问题时bug明显变多了,以前一次就对的东西现在经常要反复修改。它不再仔细读完项目文件再动手,而是扫一眼就开始写,写出来的东西需要更多纠正。
但直觉是直觉,证明是证明。
上周,一个叫Stella Laurenzo的开发者在GitHub上发了一个issue。她不是普通用户——做系统编程,C、MLIR、GPU驱动,同时跑50个以上的并发AI会话。状态好的时候,一周合并191,000行代码。
她分析了自己的6,852个会话、17,871个思考块、234,760次工具调用。
用Claude的数据证明Claude在变笨。生成报告用的,也是Claude。
Claude有一个「扩展思考」功能——回答之前先进行内部推理。这部分推理的深度,直接决定输出质量。
从1月底到3月中旬,思考深度下降了73%。1月每次思考中位数约2,200个字符,到3月只剩600个。
这不是缓慢退化。有一个关键日期:3月8日。
在那之前,思考内容对用户部分可见。从3月5日开始,思考被逐步遮蔽——1.5%到24.7%到58.4%,到3月12日之后100%不可见。
质量问题的集中爆发,恰好在3月8日。
思考被藏起来的同时,思考本身也变浅了。