探索研究驱动的工作方式

在清迈第二个月了,就出过一次小区门(如果不算小区门口的711和一个商场)。时间都用在研究AI,傍晚或者晚上下楼游泳。

这几个月最大的变化,是我从「产品驱动」转向了「研究驱动」。

产品驱动是:先想清楚要做一个什么样的产品——它解决了什么问题、用户在哪、商业模式是什么、怎么定义MVP。

研究驱动反过来:先选一个真正值得解决的问题,把它解决到一定程度,再说怎么产品化。

之前在公司里,成本和各种压力下,做不到真正的研究驱动。现在一个人,反而很轻易就转过来了。

下面说说我最近做的三件事。

01 AI控制电脑:做了不少,最后冻结

第一件是前段时间花精力最大的一条线——让AI更好地控制电脑。

OpenClaw已经有不错的主动控制电脑能力,但并不可靠。我的思路是:把只读的能力做宽(因为只读相对安全),把操作层做窄但做精确,让操作更丝滑的同时提高安全性(读AX API树,把ref持久化,实在不行才fallback到看截图,同时做了很多权限隔离)。

我做了不少尝试,前后写了接近10万行代码。在很窄的场景下,效果是真的好——比我用过的所有AI操作电脑的产品都流畅得多。

看到了解决问题的希望,欣喜若狂。

但这些能力很脆。环境一变,就需要一个问题一个问题地解决,能力很难真正泛化。而且安全性问题也比预想中复杂很多。

又做了多轮尝试之后,我把这条线冻结了。

冻结这个词的本意是把已经讨论清楚的工程决定先锁死,让后面开发不再变动——但这次是真正冻结在这里了。

那一瞬间感觉很失落,很多天的工作成果,最后没能落地。但很快释然了。

按产品视角,想好的东西最后没做出来是不正常;但按研究视角,失败本来就是常态。可能后面很多时间都得在死胡同里打转。

这是我意识到自己已经转向研究驱动的第一个时刻。

冻结之后,我开了一个新对话,让Claude Code评价一下这个项目,得到了一点情绪价值。

02 AI的记忆:还在尝试

前几天我写过一篇关于「知识状态运行时」的文章,提了一个判断:现在大部分「AI个人知识库」方案,都不够好。结论是要把记忆从「一个功能」升级成「一个运行时」。

实际上我在这件事上做的探索,比文章里写的深得多。我参考了市面上各种记忆产品,甚至包括RP(角色扮演)圈的HypaMemory等——RP圈其实是最有动力解决记忆问题的圈子,只是应用方向不一样。

这条线慢、累、看起来没产出——记忆系统没有benchmark,只能靠大量人工测试和人工体验。现在做记忆的产品也很多很卷,做这些产品的团队技术普遍很强,我不确定能否在某些场景做得更好。这条路还需要时间、需要耐心,但探索的过程让我非常满足。

03 意外捡到的一条研究线

某天我冒出一个好奇的念头——如果给模型一些奇怪的压力,把它同时往两边拉扯,它会输出怎样的结果?

顺手设计了一个小实验,跑在我MacBook上的两个本地小模型——Gemma和Qwen上面。

但第一组数据出来我就意识到不对——这两个模型在行为上的差异比我预期的大很多。我又做了几个实验挖了一下,发现了更多奇怪的现象。

如果继续往下挖,这是一个纯科学研究的问题,对做产品没什么直接帮助。我每天的时间是有限的。

但好奇心很难压住。几组数据已经摆在面前了,模型的模式在变得越来越奇怪——我想知道是为什么。

我放下了手头的工作挖了下去。可能这就是INTP吧。

我体会到了一种从前职业生涯里从来没有过的感觉——科研的快乐。

每跑一个新实验之前,我都会先在脑子里预测一遍结果——这个模型在这个条件下,应该向哪个方向偏、幅度大概多少。然后跑出来一看,经常和我预测的不一样。这件事本身就极其有趣——你以为你已经摸到了它的脾气,它又给你来一下。

在等待实验的过程中,我开始和ChatGPT Pro打赌——把实验设计写给它,我们分别预测实验的结果。前期的结果往往是我们俩都猜错。

每一次结果出来,都像在开一个赌博的盅。如果这次对我的假设有利,那这个发现就更重要、我的理论会得到一次干净的验证;如果不利,之前的假设就要被推翻、之前那些干净的图就要被打成更混沌的版本,整个框架就要翻新一次,甚至直接宣告失败。

而且这个游戏的本质是数学化的赌博——假设每个实验你成立的概率是70%,但你需要十个实验串起来才能撑住一个thesis,那十个全打中的概率连3%都不到。

我让Claude每次跑完实验都给我发通知,甚至半夜按捺不住爬起来看实验结果。真的太像赌博了。这种感觉,我做产品做项目的十几年里从来没有过。

跑了数天之后(我的MacBook快冒烟了),整个事情慢慢收敛到了一个能解释绝大多数现象的理论——挖出了一些之前不知道的东西。

然后第二个决策点来了——要不要把它正式写成一篇论文?我之前没有做过科研,要不要把「做研究」这条线纳入我的职业生涯?

写论文意味着接下来要把行为层的发现做实,要做机制层的验证,走完整的发表流程。这是几个月的实打实投入。

还是准备做了。

第一,我第一次感觉到自己有机会,真正为这个行业在理论层面贡献一点点东西。不是做一个用户喜欢的产品——那是产品工作的回报;而是发现一个新的现象,然后提出一个新的理论并解释清楚,为后面的人往路上铺一点点石子,这件事我之前从没有机会做过。

第二,好奇心已经到了挡不住的程度。已经走到这一步,停下来比走下去更难受。

第三,前面说过第一次体验到了科研的快乐——我想把这种快乐完整体验完。

无论结果如何,「我现在开始真正做AI研究了」这件事,在我心智上的转变是真实的。

我在旅居,算力只有两台MacBook。随着进展,「我能用本地小模型尝试这事」,已经尝试完了。

如果想继续探索,就要深入到机制层了——机制层研究必须要更大的模型+更高的算力+直接接触权重。

要做probe和steering,得直接读写更大模型某一层的激活值。我去租GPU了。

这是一条临时拐进来的路。本来只是想看看这条路通到哪里,没想到进入了藕花深处。

感叹一下,AI真的把「一个人能做的事」放大到了能撑起一条研究线的程度。

还在探索真正的AI原生的工作方式——工作方式本身,也是一种探索。