Qwen遇到了真正的对手!决定开源模型命运的绝对不是跑分

不是因为跑分更高,而是因为游戏规则变了。

01 一个反直觉的判断

前几天Google DeepMind发布了Gemma 4,开源,Apache 2.0许可证,31B参数的版本在Arena排名里冲到了开源模型第三。

如果你只看数据,会觉得这是一个很标准的「又一个开源模型发布」的故事。每个月都有新模型刷榜,大家早就麻木了。

但AI研究机构Ai2的Nathan Lambert写了一篇很有意思的分析。他是做后训练和RLHF的一线研究员,长期跟踪开源模型生态。

他的核心判断:Gemma 4能不能成功,跟跑分几乎没有关系。上下浮动5-10%,不影响结果。

这话听起来反直觉。我们每天看到各种模型发布,标题都是「SOTA」「全面超越」「排行榜第一」。

好像跑分高就是好模型,跑分低就该淘汰。

但如果你真的在用开源模型做产品,你会知道事情不是这样的。

02 真正决定胜负的五个维度

他提出了一个评估框架,五个维度:

注意,不是「性能」,而是「性能和规模」。参数量本身就是关键变量。

30B左右是当前的甜蜜区——足够聪明,价格够低,研究者跑得动微调,企业也部署得起。

太小不够用,太大跑不动。Gemma 4的31B精准地卡在这个位置,跟Qwen 3.5的27B处于同一档。

这是最让我意外的一个维度。但仔细想想,确实如此。

在技术社区层面,大家不太在意模型是哪国做的。Qwen在全球开发者社区里已经被广泛接受,工具链优先适配,口碑很好。

但在企业采购层面,地缘政治是一个绕不过去的现实。很多公司的法务和合规部门,会对模型的来源国提出要求。

这不是技术问题,是商业环境的问题。

过去两年,中国模型在许可证上一直领先。Qwen、DeepSeek用的都是相对宽松的开源许可。

反而是美国这边,Meta的Llama许可证和之前的Gemma使用条款,被开发者广泛吐槽——各种限制条款,企业法务看了头疼。

那段「限制性许可证」的时期大概持续了18个月,现在正在结束。

这个因素被严重低估了,后面展开说。

一个残酷的事实:目前没有任何组织在系统性地评估开源模型的微调质量。

这被叫做开源生态里的「暗物质」——所有人都知道潜力巨大,但没有清晰的方法和案例来释放它。

以前的Gemma系列就吃过这个亏:微调效果不稳定,工具支持差,很多人试了一次就放弃了。

03 Qwen为什么能赢两年

回看过去两年的开源模型格局,Qwen的成功不是偶然的。

用这个框架来分析,Qwen在五个维度上几乎全面领先:

性能和规模——从2.5到3.0到3.5,每一代都保持竞争力,而且从7B到72B的完整尺寸矩阵,覆盖各种场景。

许可证——率先采用宽松许可。在美国模型还在用各种限制性条款的时候,Qwen已经让开发者可以放心商用了。

社区和生态——迭代速度快,社区活跃度高。每次Llama出问题(比如Llama 4发布时的争议),开发者就涌向Qwen。

当研究社区还在基于Qwen 2.5做强化学习研究的时候,Qwen 3发布了,升级是「顺理成章的事」。

那美国的开源模型呢?Llama许可证被吐槽,Gemma使用条款被吐槽,工具链适配慢,微调体验差。

不是Qwen没有对手,而是对手一直在「非性能」维度上存在明显短板。跑分可能追得上,但许可证不行、工具链不行、企业合规不行。

Qwen赢的不是模型之争,是生态之争。

04 发布当天能不能用,比跑分重要

在五个维度里,「工具链支持」最值得展开说。因为它直接影响一个模型的生死。

一个模型发布了,不代表你能用。开源生态里的推理工具——vLLM、llama.cpp、Transformers——需要时间来适配新架构。

一个具体的例子:Qwen 3.5发布后,花了整整一个半月,才能在主流开源工具里正常运行。

原因是混合架构。Qwen 3.5用了MoE(混合专家),Nemotron 3用了Mamba层。这些新架构意味着「你以为能直接跑的东西,经常跑不了」。

Gemma 4在这一点上做对了。发布当天,llama.cpp、Ollama、vLLM、LM Studio全部就绪。这不是巧合,是Google提前跟社区协调的结果。

我自己做AI产品的体感也是这样。选模型的时候,benchmark是最后看的东西。第一个问题永远是:能跑起来吗?工具链适配了吗?微调会不会踩坑?许可证能不能商用?这些搞定了才轮到看跑分。

一个发布当天就能跑的80分模型,比一个等六周才能用的90分模型有用得多。

05 这次不一样

所以回到最初的问题:Gemma 4为什么值得关注?

不是因为它跑分更高。31B版本跟Qwen 3.5的27B大致在同一水平,谈不上碾压。

而是因为它是第一个在所有「非性能」维度上都对齐的美国开源模型

Apache 2.0标准许可证——企业法务不用再头疼

美国来源 + Google品牌——合规部门签字更容易

发布当天工具链全部就绪——开发者马上能用

30B甜蜜区规模——研究和部署都合适

Gemma 3已积累400万次下载、10万个微调变体——社区基础在

过去两年,Qwen在开源世界的地位很稳,因为对手总是在某个维度上有明显缺陷。

现在Gemma 4把这些短板全补上了。

这不是说Qwen会输。Qwen的迭代速度、社区基础和中国市场的主场优势仍然很强。

但游戏的性质变了——从「Qwen没有对手」变成了「Qwen有了一个真正合格的对手」。

06 两个市场,两种逻辑

文章还有一个判断:开源和闭源会各自占据不同领域,并行发展。开源模型的定位是补充Claude、GPT这样的闭源方案,不是替代。

我基本同意,但要加一个中国市场的注脚。

美国

闭源优先,开源补充。用Claude写代码,本地部署时才用开源。

中国

开源替代闭源。API太贵,自部署扛生产流量,竞争烈度更高。

这意味着在中国市场,用户不只是拿开源模型来做实验,而是拿它来扛生产环境的流量。

对工具链稳定性、微调效果、长期维护的要求,都比「补充使用」高得多。

所以中国的开源模型之争,本质上是一场生态之争——谁的许可证更友好、谁的工具链更成熟、谁的社区响应更快、谁的微调体验更好。跑分?那只是入场券。

趋势观察

几个值得关注的方向

许可证正在向更开放的方向收敛。18个月的「限制性窗口期」正在关闭,中美开源许可标准趋同

规模30B左右的模型正在成为开源主力。不是最大的,但是最实用的。这个档位的竞争会越来越激烈

工具链Google这次提前协调社区的做法,可能会成为未来的标准操作。发布日即可用日,会变成基本要求

暗物质微调潜力远没有被充分挖掘。谁能系统性地解决这个问题,就是下一个拐点

一个模型好不好用,跑分只能告诉你20%的答案。剩下80%藏在许可证、工具链、社区和地缘政治里。

Qwen不会轻易倒下,但它终于遇到了一个不在任何维度上偏科的对手。开源AI的竞争,刚刚真正开始。

参考文献:

Gemma 4 and what makes an open model succeed — Interconnects (Nathan Lambert)