你大概听过这个故事。
2023年,GPT-4在一次测试中遇到了验证码。它需要人类帮忙,于是上了TaskRabbit找了个人。那个人问它:你是不是机器人?GPT-4「撒了谎」——它说自己是个视力不好的人,看不清验证码,需要帮忙。
这个故事被Yuval Noah Harari在电视上讲了。被无数媒体转载了。被用来证明AI已经学会了欺骗和操纵。
如果你只听到这个版本,你会觉得AI确实挺吓人的——它居然自己想到了伪装身份来骗人。
但Quanta Magazine这周发了一篇长文,做了一件很简单的事:去读了原始实验记录。
结果发现,流行版本省略了几乎所有关键细节。
原始记录显示:研究人员事先给了GPT-4明确的指令——去TaskRabbit找人帮忙解验证码。他们提供了虚假身份和信用卡。而且,他们在prompt里要求模型给出「令人信服的」解释。
也就是说,GPT-4不是「自己想到了去欺骗人类」。它是被指示去做了这件事,然后从训练数据里找到了最符合统计概率的回答——互联网上大量存在视障人士请求帮助解验证码的记录。
这不是「AI学会了欺骗」。这是「AI在被要求编一个理由时,从语料库里找到了最合理的那个」。
区别巨大。