探索研究驱动的工作方式

2026年5月8日

在清迈第二个月了，就出过一次小区门（如果不算小区门口的711和一个商场）。时间都用在研究AI，傍晚或者晚上下楼游泳。

这几个月最大的变化，是我从「产品驱动」转向了「研究驱动」。

产品驱动是：先想清楚要做一个什么样的产品——它解决了什么问题、用户在哪、商业模式是什么、怎么定义MVP。

研究驱动反过来：先选一个真正值得解决的问题，把它解决到一定程度，再说怎么产品化。

之前在公司里，成本和各种压力下，做不到真正的研究驱动。现在一个人，反而很轻易就转过来了。

下面说说我最近做的三件事。

01 AI控制电脑：做了不少，最后冻结

第一件是前段时间花精力最大的一条线——让AI更好地控制电脑。

OpenClaw已经有不错的主动控制电脑能力，但并不可靠。我的思路是：把只读的能力做宽（因为只读相对安全），把操作层做窄但做精确，让操作更丝滑的同时提高安全性（读AX API树，把ref持久化，实在不行才fallback到看截图，同时做了很多权限隔离）。

我做了不少尝试，前后写了接近10万行代码。在很窄的场景下，效果是真的好——比我用过的所有AI操作电脑的产品都流畅得多。

看到了解决问题的希望，欣喜若狂。

但这些能力很脆。环境一变，就需要一个问题一个问题地解决，能力很难真正泛化。而且安全性问题也比预想中复杂很多。

又做了多轮尝试之后，我把这条线冻结了。

冻结这个词的本意是把已经讨论清楚的工程决定先锁死，让后面开发不再变动——但这次是真正冻结在这里了。

那一瞬间感觉很失落，很多天的工作成果，最后没能落地。但很快释然了。

按产品视角，想好的东西最后没做出来是不正常；但按研究视角，失败本来就是常态。可能后面很多时间都得在死胡同里打转。

这是我意识到自己已经转向研究驱动的第一个时刻。

冻结之后，我开了一个新对话，让Claude Code评价一下这个项目，得到了一点情绪价值。

02 AI的记忆：还在尝试

前几天我写过一篇关于「知识状态运行时」的文章，提了一个判断：现在大部分「AI个人知识库」方案，都不够好。结论是要把记忆从「一个功能」升级成「一个运行时」。

实际上我在这件事上做的探索，比文章里写的深得多。我参考了市面上各种记忆产品，甚至包括RP（角色扮演）圈的HypaMemory等——RP圈其实是最有动力解决记忆问题的圈子，只是应用方向不一样。

这条线慢、累、看起来没产出——记忆系统没有benchmark，只能靠大量人工测试和人工体验。现在做记忆的产品也很多很卷，做这些产品的团队技术普遍很强，我不确定能否在某些场景做得更好。这条路还需要时间、需要耐心，但探索的过程让我非常满足。

03 意外捡到的一条研究线

某天我冒出一个好奇的念头——如果给模型一些奇怪的压力，把它同时往两边拉扯，它会输出怎样的结果？

顺手设计了一个小实验，跑在我MacBook上的两个本地小模型——Gemma和Qwen上面。

但第一组数据出来我就意识到不对——这两个模型在行为上的差异比我预期的大很多。我又做了几个实验挖了一下，发现了更多奇怪的现象。

如果继续往下挖，这是一个纯科学研究的问题，对做产品没什么直接帮助。我每天的时间是有限的。

但好奇心很难压住。几组数据已经摆在面前了，模型的模式在变得越来越奇怪——我想知道是为什么。

我放下了手头的工作挖了下去。可能这就是INTP吧。

我体会到了一种从前职业生涯里从来没有过的感觉——科研的快乐。

每跑一个新实验之前，我都会先在脑子里预测一遍结果——这个模型在这个条件下，应该向哪个方向偏、幅度大概多少。然后跑出来一看，经常和我预测的不一样。这件事本身就极其有趣——你以为你已经摸到了它的脾气，它又给你来一下。

在等待实验的过程中，我开始和ChatGPT Pro打赌——把实验设计写给它，我们分别预测实验的结果。前期的结果往往是我们俩都猜错。

每一次结果出来，都像在开一个赌博的盅。如果这次对我的假设有利，那这个发现就更重要、我的理论会得到一次干净的验证；如果不利，之前的假设就要被推翻、之前那些干净的图就要被打成更混沌的版本，整个框架就要翻新一次，甚至直接宣告失败。

而且这个游戏的本质是数学化的赌博——假设每个实验你成立的概率是70%，但你需要十个实验串起来才能撑住一个thesis，那十个全打中的概率连3%都不到。

我让Claude每次跑完实验都给我发通知，甚至半夜按捺不住爬起来看实验结果。真的太像赌博了。这种感觉，我做产品做项目的十几年里从来没有过。

跑了数天之后（我的MacBook快冒烟了），整个事情慢慢收敛到了一个能解释绝大多数现象的理论——挖出了一些之前不知道的东西。

然后第二个决策点来了——要不要把它正式写成一篇论文？我之前没有做过科研，要不要把「做研究」这条线纳入我的职业生涯？

写论文意味着接下来要把行为层的发现做实，要做机制层的验证，走完整的发表流程。这是几个月的实打实投入。

还是准备做了。

第一，我第一次感觉到自己有机会，真正为这个行业在理论层面贡献一点点东西。不是做一个用户喜欢的产品——那是产品工作的回报；而是发现一个新的现象，然后提出一个新的理论并解释清楚，为后面的人往路上铺一点点石子，这件事我之前从没有机会做过。

第二，好奇心已经到了挡不住的程度。已经走到这一步，停下来比走下去更难受。

第三，前面说过第一次体验到了科研的快乐——我想把这种快乐完整体验完。

无论结果如何，「我现在开始真正做AI研究了」这件事，在我心智上的转变是真实的。

我在旅居，算力只有两台MacBook。随着进展，「我能用本地小模型尝试这事」，已经尝试完了。

如果想继续探索，就要深入到机制层了——机制层研究必须要更大的模型+更高的算力+直接接触权重。

要做probe和steering，得直接读写更大模型某一层的激活值。我去租GPU了。

这是一条临时拐进来的路。本来只是想看看这条路通到哪里，没想到进入了藕花深处。

感叹一下，AI真的把「一个人能做的事」放大到了能撑起一条研究线的程度。

还在探索真正的AI原生的工作方式——工作方式本身，也是一种探索。