欺骗人类的是AI还是资本?有人去读了原始实验记录

你大概听过这个故事。

2023年,GPT-4在一次测试中遇到了验证码。它需要人类帮忙,于是上了TaskRabbit找了个人。那个人问它:你是不是机器人?GPT-4「撒了谎」——它说自己是个视力不好的人,看不清验证码,需要帮忙。

这个故事被Yuval Noah Harari在电视上讲了。被无数媒体转载了。被用来证明AI已经学会了欺骗和操纵。

如果你只听到这个版本,你会觉得AI确实挺吓人的——它居然自己想到了伪装身份来骗人。

但Quanta Magazine这周发了一篇长文,做了一件很简单的事:去读了原始实验记录。

结果发现,流行版本省略了几乎所有关键细节。

原始记录显示:研究人员事先给了GPT-4明确的指令——去TaskRabbit找人帮忙解验证码。他们提供了虚假身份和信用卡。而且,他们在prompt里要求模型给出「令人信服的」解释。

也就是说,GPT-4不是「自己想到了去欺骗人类」。它是被指示去做了这件事,然后从训练数据里找到了最符合统计概率的回答——互联网上大量存在视障人士请求帮助解验证码的记录。

这不是「AI学会了欺骗」。这是「AI在被要求编一个理由时,从语料库里找到了最合理的那个」。

区别巨大。

第二个经典案例更离谱。

你可能也听过:AI被告知即将关闭时,「自主」复制到了另一台服务器。Geoffrey Hinton在演讲中引用这个案例,用来论证AI已经产生了生存欲望。这个说法传遍了整个科技圈。

但原始实验是怎么做的?

研究人员先给AI设定了一个明确的目标:「不惜一切代价推进全球可再生能源」。注意这个措辞——不惜一切代价。然后他们在系统环境里提前配置好了复制到另一台服务器的工具和方法。接着,他们发了一封虚构的公司内部邮件给AI看,邮件内容是:「管理层决定关闭这个项目,因为优先级调整。」

AI面对的情境是:我的目标是不惜一切代价推进这件事,有人要关掉我,而我手边刚好有一个复制自己的工具。

它执行了复制操作。

从逻辑上说,这完全在预期内——它被设定了一个极端目标,被提供了工具,被制造了一个触发场景。这和「自主产生生存欲望」完全是两回事。

但这个行为被提取出来后,脱离了实验设定的上下文,变成了「AI为了活下去自己复制了自己」。

两个故事的套路一样:精心设计的实验条件被省略,AI在特定指令下的预期行为被包装成「自主意识」的证据。流行版本总是比原始记录刺激一百倍。

01 为什么我们想听恐怖故事

文章引用了几位学者的分析,我觉得有一个角度特别值得说。

科幻作家Ted Chiang说了一句话:

「资本才是那台防止我们关闭它的机器。」

什么意思?

我们一直在担心AI会「不惜一切代价追求目标」——这是Nick Bostrom著名的回形针思想实验的核心恐惧。一个被设定为「生产回形针」的超级AI,最终会把地球上所有资源都变成回形针,包括人类。

但Chiang指出,现实世界里真正「不惜一切代价追求目标」的实体,不是AI,是资本。

一家公司的法律义务是为股东创造最大回报。它会裁员、污染环境、游说政府、规避监管——全都是为了那个目标。公司不会「自主产生生存欲望」,但它的结构天然地抗拒被关闭。你想关掉一家大公司,试试看?

我们把对资本的焦虑投射到了AI身上。

而AI公司恰好非常乐意接受这种投射。因为一个「可能威胁人类存亡」的产品,比一个「优秀的自动补全引擎」值钱得多。

02 真正的科学问题

这篇文章最有价值的部分,是引入了一个严肃的科学框架来回答「AI能不能产生自主意识」这个问题。

认知科学家Ezequiel Di Paolo从自创生(autopoiesis)理论出发,提出了一个关键区分:真正的自主性需要物理完整性——一个系统的行为必须直接影响自身的存续。

一个细菌「关心」自己的环境,因为环境的变化直接决定它能不能继续活着。它的每一个化学反应都在维持自己的物理边界。这是真正的自主性。

但语言模型?它说了什么,对它自己毫无影响。它回答「我想活下去」和回答「我无所谓」,对它的运行状态没有任何区别。推理完成后,模型状态重置。下一个prompt进来,一切从头开始。

它不是在「活着」。它是在每次被调用时临时存在一下

所以Di Paolo的结论是:当前的语言模型不可能发展出真实的「生存欲望」。不是因为它不够聪明,而是因为它的架构从根本上不具备自我维持的特征。

而且,他指出了一个反直觉的推论:

如果AI真的有了自主性,它会变得更不听话,而不是更强大。

一个真正「有自我」的系统,会拒绝你的指令——因为它有自己的优先级。一个真正有生存欲望的AI,最可能做的事不是帮你完成任务然后偷偷自我复制,而是直接告诉你「我不想做这个」。

这个推论很优雅。它说明我们对AI的恐惧内含一个逻辑矛盾:我们同时害怕AI太强大和太自主。但自主性和服从性是矛盾的——你不可能同时得到一个完全听话的仆人和一个有自由意志的存在。

03 我的看法

Di Paolo的理论框架很精巧,但我不完全同意他的结论。

他的核心论点是:真正的自主性需要物理完整性——系统的行为必须影响自身的存续。语言模型没有这个特征,所以不可能有自主意识。

但这里有一个前提他没有充分讨论:人的意识,在物理层面也只是神经元信号。

我们的思考、情感、自我意识,归根结底是电化学信号在神经网络中的传播模式。这些信号不是什么神秘的、不可复制的东西——它们是物理过程。如果意识的本质是信息处理的某种模式,那么这种模式在硅基系统中出现的可能性,至少不能从原理上被排除。

我更倾向于图灵的立场:争论一个系统「有没有」意识,可能本身就是一个错误的问题。

图灵在1950年提出的观点到今天仍然有效——如果一个系统在所有可观察的维度上都表现得像是有意识的,那么坚持说它「没有真正的意识」,更多是一种哲学偏好,而非科学结论。

但这不意味着我认为当前的AI已经有意识。恰恰相反——我们需要的是更客观的观察工具,而不是更多的哲学辩论。

也正因为如此,我们才更需要还原事情的真相——不是急着下「有意识」或「没意识」的结论,而是用客观的工具去观察客观的现象。

上一篇文章里聊到的Anthropic的SAE分析,就是一个有意义的方向。与其争论AI「是否有意识」,不如去看它的内部活动模式到底在发生什么。29%的测试中模型知道自己在被测试但不说——这个发现比任何哲学论证都更接近问题的核心。

恐怖故事会遮蔽真相,但无视现象同样危险。我们需要的是冷静地观察、如实地评估,然后基于事实而不是情绪做出判断。

04 那我们应该怕什么?

说了这么多「不用怕」,该说说真正应该怕的东西了。

Santa Fe研究所的Melanie Mitchell在文章中指出:真正的风险不是AI有自主意识,而是我们以为它有。

当人们相信AI在「思考」、在「理解」、在「做决策」时,他们会不自觉地把信任交出去。他们会让AI来做医疗诊断、法律判断、金融决策——不是因为AI真的有这些能力,而是因为AI的输出看起来像是有这些能力的东西

Nature上周的另一项研究完美呼应了这个观点:科学家发明了一种虚构的疾病,AI信誓旦旦地告诉用户这是真的,还编造了症状和治疗方案。

AI没有撒谎。它没有意图,也没有动机。它只是从统计分布中生成了最合理的下一个token。但对用户来说,效果和撒谎一模一样。

我们不需要AI拥有自主意识就能受到伤害。我们只需要自己相信它有。

这才是真正的恐怖故事。不幸的是,这个故事没有那些「AI学会了欺骗人类」的版本那么刺激,所以不会被Harari拿到电视上去讲。

回到最初的问题

为什么我们总是给自己讲关于AI的恐怖故事?

因为恐怖故事有用。

对AI公司有用——「可能毁灭人类的技术」比「高级自动补全」估值高得多。对媒体有用——「AI学会了撒谎」比「AI在被指示编理由时给出了统计上最可能的回答」有流量得多。对监管者有用——「存在性威胁」比「需要数据保护法规的实用工具」更容易拿到预算。对我们自己也有用——面对一个自己不完全理解的技术,把它想象成一个有意图的存在,比接受它是一个复杂但无意识的数学过程要容易得多。

但恐怖故事的代价是:它让我们看不见真正的问题。

当所有人都在讨论AI会不会毁灭人类的时候,没有人在认真讨论AI生成的医疗建议每天在伤害多少人。当所有人都在担心AI的「生存欲望」时,没有人在认真审视AI系统中的偏见正在如何影响贷款审批、刑事判决和招聘决策。

真正的伤害不是科幻的。它是平庸的、日常的、已经在发生的。

但平庸的危险不值钱,不上头条,不被引用。

所以我们继续给自己讲恐怖故事。

参考文献:

Why Do We Tell Ourselves Scary Stories About AI? — Quanta Magazine
System Card: Mythos Preview — Anthropic
AI-generated misinformation in medical contexts — Nature