Qwen遇到了真正的对手！决定开源模型命运的绝对不是跑分

不是因为跑分更高，而是因为游戏规则变了。

2026年4月5日

01 一个反直觉的判断

前几天Google DeepMind发布了Gemma 4，开源，Apache 2.0许可证，31B参数的版本在Arena排名里冲到了开源模型第三。

如果你只看数据，会觉得这是一个很标准的「又一个开源模型发布」的故事。每个月都有新模型刷榜，大家早就麻木了。

但AI研究机构Ai2的Nathan Lambert写了一篇很有意思的分析。他是做后训练和RLHF的一线研究员，长期跟踪开源模型生态。

他的核心判断：Gemma 4能不能成功，跟跑分几乎没有关系。上下浮动5-10%，不影响结果。

这话听起来反直觉。我们每天看到各种模型发布，标题都是「SOTA」「全面超越」「排行榜第一」。

好像跑分高就是好模型，跑分低就该淘汰。

但如果你真的在用开源模型做产品，你会知道事情不是这样的。

02 真正决定胜负的五个维度

他提出了一个评估框架，五个维度：

注意，不是「性能」，而是「性能和规模」。参数量本身就是关键变量。

30B左右是当前的甜蜜区——足够聪明，价格够低，研究者跑得动微调，企业也部署得起。

太小不够用，太大跑不动。Gemma 4的31B精准地卡在这个位置，跟Qwen 3.5的27B处于同一档。

这是最让我意外的一个维度。但仔细想想，确实如此。

在技术社区层面，大家不太在意模型是哪国做的。Qwen在全球开发者社区里已经被广泛接受，工具链优先适配，口碑很好。

但在企业采购层面，地缘政治是一个绕不过去的现实。很多公司的法务和合规部门，会对模型的来源国提出要求。

这不是技术问题，是商业环境的问题。

过去两年，中国模型在许可证上一直领先。Qwen、DeepSeek用的都是相对宽松的开源许可。

反而是美国这边，Meta的Llama许可证和之前的Gemma使用条款，被开发者广泛吐槽——各种限制条款，企业法务看了头疼。

那段「限制性许可证」的时期大概持续了18个月，现在正在结束。

这个因素被严重低估了，后面展开说。

一个残酷的事实：目前没有任何组织在系统性地评估开源模型的微调质量。

这被叫做开源生态里的「暗物质」——所有人都知道潜力巨大，但没有清晰的方法和案例来释放它。

以前的Gemma系列就吃过这个亏：微调效果不稳定，工具支持差，很多人试了一次就放弃了。

03 Qwen为什么能赢两年

回看过去两年的开源模型格局，Qwen的成功不是偶然的。

用这个框架来分析，Qwen在五个维度上几乎全面领先：

性能和规模——从2.5到3.0到3.5，每一代都保持竞争力，而且从7B到72B的完整尺寸矩阵，覆盖各种场景。

许可证——率先采用宽松许可。在美国模型还在用各种限制性条款的时候，Qwen已经让开发者可以放心商用了。

社区和生态——迭代速度快，社区活跃度高。每次Llama出问题（比如Llama 4发布时的争议），开发者就涌向Qwen。

当研究社区还在基于Qwen 2.5做强化学习研究的时候，Qwen 3发布了，升级是「顺理成章的事」。

那美国的开源模型呢？Llama许可证被吐槽，Gemma使用条款被吐槽，工具链适配慢，微调体验差。

不是Qwen没有对手，而是对手一直在「非性能」维度上存在明显短板。跑分可能追得上，但许可证不行、工具链不行、企业合规不行。

Qwen赢的不是模型之争，是生态之争。

04 发布当天能不能用，比跑分重要

在五个维度里，「工具链支持」最值得展开说。因为它直接影响一个模型的生死。

一个模型发布了，不代表你能用。开源生态里的推理工具——vLLM、llama.cpp、Transformers——需要时间来适配新架构。

一个具体的例子：Qwen 3.5发布后，花了整整一个半月，才能在主流开源工具里正常运行。

原因是混合架构。Qwen 3.5用了MoE（混合专家），Nemotron 3用了Mamba层。这些新架构意味着「你以为能直接跑的东西，经常跑不了」。

Gemma 4在这一点上做对了。发布当天，llama.cpp、Ollama、vLLM、LM Studio全部就绪。这不是巧合，是Google提前跟社区协调的结果。

我自己做AI产品的体感也是这样。选模型的时候，benchmark是最后看的东西。第一个问题永远是：能跑起来吗？工具链适配了吗？微调会不会踩坑？许可证能不能商用？这些搞定了才轮到看跑分。

一个发布当天就能跑的80分模型，比一个等六周才能用的90分模型有用得多。

05 这次不一样

所以回到最初的问题：Gemma 4为什么值得关注？

不是因为它跑分更高。31B版本跟Qwen 3.5的27B大致在同一水平，谈不上碾压。

而是因为它是第一个在所有「非性能」维度上都对齐的美国开源模型：

Apache 2.0标准许可证——企业法务不用再头疼

美国来源 + Google品牌——合规部门签字更容易

发布当天工具链全部就绪——开发者马上能用

30B甜蜜区规模——研究和部署都合适

Gemma 3已积累400万次下载、10万个微调变体——社区基础在

过去两年，Qwen在开源世界的地位很稳，因为对手总是在某个维度上有明显缺陷。

现在Gemma 4把这些短板全补上了。

这不是说Qwen会输。Qwen的迭代速度、社区基础和中国市场的主场优势仍然很强。

但游戏的性质变了——从「Qwen没有对手」变成了「Qwen有了一个真正合格的对手」。

06 两个市场，两种逻辑

文章还有一个判断：开源和闭源会各自占据不同领域，并行发展。开源模型的定位是补充Claude、GPT这样的闭源方案，不是替代。

我基本同意，但要加一个中国市场的注脚。

美国

闭源优先，开源补充。用Claude写代码，本地部署时才用开源。

中国

开源替代闭源。API太贵，自部署扛生产流量，竞争烈度更高。

这意味着在中国市场，用户不只是拿开源模型来做实验，而是拿它来扛生产环境的流量。

对工具链稳定性、微调效果、长期维护的要求，都比「补充使用」高得多。

所以中国的开源模型之争，本质上是一场生态之争——谁的许可证更友好、谁的工具链更成熟、谁的社区响应更快、谁的微调体验更好。跑分？那只是入场券。

趋势观察

几个值得关注的方向

许可证正在向更开放的方向收敛。18个月的「限制性窗口期」正在关闭，中美开源许可标准趋同

规模30B左右的模型正在成为开源主力。不是最大的，但是最实用的。这个档位的竞争会越来越激烈

工具链Google这次提前协调社区的做法，可能会成为未来的标准操作。发布日即可用日，会变成基本要求

暗物质微调潜力远没有被充分挖掘。谁能系统性地解决这个问题，就是下一个拐点

一个模型好不好用，跑分只能告诉你20%的答案。剩下80%藏在许可证、工具链、社区和地缘政治里。

Qwen不会轻易倒下，但它终于遇到了一个不在任何维度上偏科的对手。开源AI的竞争，刚刚真正开始。

参考文献：

Gemma 4 and what makes an open model succeed — Interconnects (Nathan Lambert)