Midjourney的老鼠,Hinton的土狼:医学治不好技术乐观主义

2024年初,一张图片在科学圈传疯了。

画面里一只老鼠像松鼠那样直立坐着,胯下顶着四个大得离谱的睾丸,旁边的标注全是不存在的乱码单词。这张图堂而皇之地印在一篇正经的细胞生物学论文里,发在了Frontiers旗下的期刊上。作者在文章里直接注明:图是用Midjourney生成的。论文火速被整篇撤稿。

两年后,2026年6月,那家靠AI画图出名的Midjourney,宣布要进军医疗。他们做了一台给全身做扫描的机器,号称「像MRI一样强,像泡澡一样轻松」。

巴尔的摩的神经放射科医生Francis Deng第一时间翻出了那张老鼠图:连老鼠的解剖都能画成这样,凭什么相信你能看清我身体里的器官?

这是个好问题。但真正要命的问题,藏在Deng后面那半句话里。他说,超声波本来就穿不透骨头和空气,被它们挡住的那些部位,根本看不清。

也就是说,质疑Midjourney的,不只是「你画图都画错」这种情绪,背后还压着一条冷冰冰的物理定律。一边是铺天盖地的乐观,一边是被忽略的硬约束,这恰好就是2026年这整波医疗AI热潮的缩影。

我先把话放这儿:这波医疗AI,真技术和假标签,是混在一起卖的。看清楚哪些是哪些,比笼统地喊「AI要颠覆医疗」或者「AI医疗全是泡沫」,都重要得多。

01 那台机器:真的不是PS,但也真不是MRI

先说清楚Midjourney到底做了什么,因为大部分人都理解错了,包括我自己一开始。

这件事最反直觉的地方在于:它和Midjourney赖以成名的AI画图,几乎没有半点关系。它不是「用AI生成医学影像」,也没用到任何「让模型凭空生出一张图」的本事。它做的是一台实打实的硬件:一台全身超声扫描仪。

人站上平台、随平台缓缓沉进一圈水里,环绕身体的是几十万个微型超声阵元,从各个角度打出声波,再把回声拼成一张三维的身体图像。这些阵元来自40个Butterfly公司的超声芯片模块,五年授权协议最高值7400万美元。

听上去很科幻。但关键在于,它的技术内核并不假。

用超声做全身断层扫描,物理上是成立的。加州理工的实验室2026年4月刚在《自然》子刊上发过一篇论文,证明这条路走得通:无辐射、无强磁场,对软组织的成像精度能做到毫米级,确实是个真东西。

问题出在标签上。Midjourney给这台机器贴了三个标签:「对标MRI」「60秒扫完全身」「看清你的每一个器官」。每一个都经不起推敲。

最该打问号的是速度。让超声图像清晰到能跟MRI比,重建起来非常吃算力。但不同算法、不同硬件之间差得很远,没法拿某一项乳房成像研究直接推算这整台机器。真正站得住的质疑是另一句话:「60秒扫完全身」目前只是公司定的目标,没有任何独立研究证明它能在这么短时间里完成采集和重建,还达到诊断级、能跟MRI直接比的质量。官方自己也把这说成目标,而不是已经验证的临床表现。

至于「看清每一个器官」,物理定律不答应。声波碰到骨头会被吸收掉一大半,碰到含气的肺和肠子几乎全反射回去。骨头内部、肺的深处、被肠气挡住的地方,它都很难可靠成像。所谓「看清每一个器官」,至少这些部位是做不到的。

更耐人寻味的是,这台机器的成像靠的是声波和重建算法,跟Midjourney那种「让模型凭空画图」的生成式技术没有直接关系。公开演示里那些图,也不是AI凭空画出来的(虽然上面叠了一层AI做的器官分割)。这家公司最出名的看家本领,在它的医疗机器上其实基本缺席。

所以这台机器是个挺典型的样本:技术是真的,无辐射是真的,想把成本打下来的方向也是真的;但「对标MRI、随手一扫看清全身」这套说辞,是把一个够不着的标签,贴在了一个真东西上。

02 这不是一家公司的冒险,是所有巨头的集体下注

如果只有Midjourney这么干,你大可以当个乐子看。可问题是,2026年这半年,几乎每一家你叫得出名字的AI公司,都在往医疗里挤。

就在Midjourney发布前后那几天,OpenAI一口气甩出三件事:一个用GPT模型改进制药化学反应的成果,一次ChatGPT健康问答能力的大升级,还有一篇和波士顿儿童医院合作、登上《新英格兰医学杂志》AI子刊的论文,讲AI怎么帮医生诊断罕见病。同一周,Google让它的医疗对话AI「AMIE」登上《自然》,号称问诊能力能匹配甚至超过初级保健医生。

监管这边也在松。2026年1月,美国FDA一口气发了两份修订后的最终指南:一份管临床辅助决策软件,一份管低风险的健康类产品,放宽了一部分产品的监管边界。新任局长还放话,FDA以后要用「硅谷的速度」做事。值得留意的是,这两份指南是直接以最终版发布的,没有先走一轮新草案的正式征求意见。

把这些拼到一起,画面就清楚了:医疗是2026年所有巨头都不肯缺席的战场。这里有最煽情的故事(救孩子、攻克绝症),有最大的市场,也有最能洗白「AI很危险」这个印象的机会。

热度本身不是问题。问题是,当所有人都涌进同一个房间、同时喊「我这个能行」的时候,你更需要一把冷静的尺子,去分辨谁是真的行。

03 十年前他说放射科医生该失业了,结果呢

这种集体乐观,我们其实见过一回。

2016年,深度学习三巨头之一、后来拿了诺奖的辛顿(Geoffrey Hinton),在一场研讨会上放了句狠话。他说放射科医生就像老动画片里那只土狼,已经冲出悬崖边、却还没低头往下看,脚下早没了地、自己还浑然不觉。他这话说得很有底气:「现在就该停止培养放射科医生了。五年之内,深度学习一定会比他们做得好——这是明摆着的事。」

十年过去了。今天美国的放射科医生不但没失业,反而是医院里最抢手、最难招的工种之一,平均年薪涨到了五十多万美元,比十年前还高。梅奥诊所的放射科人数,比2016年增长了一半还多。AI确实进了放射科,但它干的是那些重复、辅助的活;与此同时,人口老龄化、影像检查量逐年增加,把需求越推越高。辛顿后来也松了口,承认当年「说得太笼统」,但又补一句:方向是对的,只是时机错了。

写到这儿我得坦白一件事。我自己是个不折不扣的技术乐观派,我相信AI最终会在几乎所有领域超越人类,我每天都在用它写代码、做产品,巴不得它跑得再快一点。但恰恰是这种乐观,让我对辛顿那种话格外警惕,因为它太符合搞技术的人的本能了。

我们这群人有个共同的毛病:看到一个能力的拐点,就忍不住把它外推成一条直线,觉得「既然已经能做到这一步,那取代整个职业不过是时间问题」。在很多领域,这种外推是对的。但医学不是大多数领域。在这儿,外推错了的代价,不是产品下个版本再修,而是一条具体的人命。

所以接下来,我想认真地、分两面,把这波热潮拆开看看。

04 先说好的:这些是真东西

不分青红皂白地唱衰,和无脑吹捧一样偷懒。这波医疗AI里,确实有几样东西是站得住的。

OpenAI那篇登上顶刊的论文,做的事其实很朴素:很多罕见病人的答案,早就躺在某个公共基因数据库里了,只是没人把这条记录和这个病人对上。模型干的就是这件「海量交叉比对」的脏活累活。它在376个陈年悬案里,帮医生找出了18个新诊断。

这里要诚实:18个里有7个属于「重新发现」,相关线索此前已经在别处被确立、只是没进到这个团队看到的病历里;剩下11个,才是这次流程里新建立、并由医生确认的。而且论文写得很清楚,模型一个病人都没「诊断」,每个诊断都是医生最后拍的板,模型只负责提供线索。但即便如此,对一个被「确诊难」折磨了好几年的家庭来说,多一个高质量的线索来源,是实实在在的好事。

再说回超声本身。无辐射,把笨重的设备做成一块芯片、有望大幅压低成本,这些都是Midjourney那台机器底下真实的技术进步。哪怕它的营销话术再浮夸,这部分底子是硬的。

还有AI制药。它今天还没法帮你凭空发明一种新药,但在筛选化合物、预测毒性这些早期环节,确实能提高效率、少走弯路。

这些东西有个共同点:它们都没跨过「替医生做最终判断」那条线。它们是放大器,是助手,是脏活累活的承包商。在这个定位上,AI在医疗里是真有用的。

05 再说虚的:被夸大的那部分

麻烦出在另一类东西上。它们听起来像是AI已经能「当医生」了,可拆开看,全是在考场里赢的。

OpenAI给ChatGPT健康能力打分用的那套测试,是它自己牵头攒的,自动评分用的也是它自家的模型。哪怕题目请了医生来出、也安排了医生复核,这套分数终究缺一道完全独立的外部验证。

而且就算用自家的尺子,水分也藏不住:有一篇覆盖三十九个主流医疗测试的综述发现,模型在知识性考题上能拿八九十分,可一换成贴近真实临床的任务,就掉到四五成到七成上下;到了考安全性的题目,更是只剩四五成。

会考试,和会看病,是两回事。

Google的AMIE号称问诊匹配医生,可它的测试方式,是让演员扮演病人、用纯文字打字聊天。真实的病人不是这样:他们描述不清、信息残缺、还经常自相矛盾。更微妙的是,这场考试的一个主要评分标准,是「答案有多贴合临床指南」,而AMIE恰恰是被专门训练去贴指南的,这一项上多少有点出题人和考生沾边的意思。事实上,同一套系统更早用真实病人测过一次,那次反而是人类医生开出的方案更省钱、更实在。

被称为数字医学先驱的心脏病学家Eric Topol,评价这类成果时说得很准:「这是在模拟环境的限定条件里迈出的一大步——而不是在真实医学里。」

前面提过的那18个罕见病,被不少报道写成了「AI诊断出18种罕见病」。可模型一个病人都没诊断。一词之差,分量天差地别。

至于「AI发明新药」,到今天为止,全世界还没有任何一款真正由AI设计的药,走完临床、获批上市。这事我们也不是第一次看走眼。十年前,IBM的Watson被捧成「攻克癌症」的希望,结果前后砸进去四十多亿美元,内部还流出过它给出不安全治疗建议的记录;2021年挂出来求售时要价只剩十亿上下,2022年最终成交价低到干脆没有公开。

06 技术的人总是乐观,但医学值得保守一点

医疗AI不是泡沫,也不是救世主。它是一堆真假掺在一起的东西,需要你一样一样去分辨:哪些已经能用,哪些还在画饼,哪些干脆违反物理定律。这件事没有捷径,恰恰因为人命关天,更不能图省事。

在一个出错就要人命的领域,谦逊比惊艳重要得多。

一家习惯了「先放出愿景、细节以后再说」的科技公司,能不能学会在医学面前慢下来、在把话说满之前先把事做实,这是个问号。

作为一个技术乐观派,我依然看好这件事的长远。AI迟早会深刻地改变医疗,这一点我不怀疑。但也正因为看好,我才更不愿看它栽跟头。在别的领域,「快速行动、打破常规」是句褒义词,可在医学里,有些规矩天生就是用来拦住「快」的。它们不是绊脚石,是前人拿一次次教训砌起来的护栏。