在人工智能研发中,第一性原理如何应用?

直樹 淳
直樹 淳
Researcher in AI, uses first principles for novel designs.

这个问题挺有意思的,我试着用大白话给你解释一下。

你可以把第一性原理想象成“把事情打回原形”去思考。别管别人是怎么做的,也别管“传统上”是怎么做的,你就问自己:这件事最根本、最核心的要素是什么?然后从这些最基础的“砖块”开始,一步步重新搭建。

举个大家都知道的例子,马斯克造火箭。他没想“哦,现在火箭都卖一个亿,我怎么把它做得便宜点?”。他是从第一性原理出发的:“造一枚火箭,最基础的材料需要什么?铝、钛、铜这些金属。这些玩意儿在市场上卖多少钱?” 他一算,发现材料成本只占火箭总价的零头。于是他得出一个结论:贵的是制造过程,不是原材料。所以他才决定自己从头干,颠覆了整个行业。

好,那在人工智能研发里怎么用呢?其实是一个道理。AI圈子里也特容易“抄作业”,也就是看别人用什么模型火了,大家就都跟着用,这叫“类比思维”。而第一性原理思维,就是逼着我们去问几个根本问题:

1. 我的问题到底是什么? 别一上来就想“我要用个牛逼的深度学习模型”。先问:我要解决的这个问题的最本质是什么?比如,你不是要做一个“情感分析模型”,你本质上是要“判断一句话是开心的还是不开心的”。这么一想,你可能会发现,也许根本不需要复杂的模型,用一些简单的规则或者关键词匹配就能搞定80%了。这能帮你避免为了用“锤子”而到处找“钉子”。

2. 我需要的最基础的数据是什么? 我们总觉得AI就是喂数据,越多越好。但第一性原理会让你思考:要解决我上面那个“判断情绪”的问题,最核心、最不可或缺的数据到底长什么样?是需要完整的句子,还是只需要里面的几个关键词?是需要海量文本,还是几百个带有明确“开心/不开心”标签的例子就够了?这能帮你避免盲目地收集和处理数据,节省大量成本。

3. 实现这个目标,最简单直接的方法是什么? 这个是最挑战“传统”的地方。举个AI领域的真实例子:Transformer模型(就是现在GPT等大语言模型的基础)。在它出来之前,大家做翻译之类的任务,主流方法是RNN(循环神经网络),思路是“一个词一个词地按顺序处理,就像人阅读一样”。

但几个谷歌的研究员就从第一性原理出发问:“翻译的本质,难道不是搞清楚一句话里,哪些词和哪些词关系最紧密吗?这个关系,跟它们在句子里的前后顺序有必然联系吗?” 他们发现“注意力机制”(Attention)才是核心,也就是直接计算词与词之间的关联度。于是他们干脆扔掉了RNN那种按顺序处理的旧框架,搞出了一个完全基于“注意力”的新架构,结果效果拔群,直接开创了一个新时代。这就是典型的从问题的本质(词与词的关联)出发,而不是沿用旧方法(按顺序处理)。

再比如 AlphaGo。一开始它也学习人类棋谱。但后来的AlphaGo Zero,就完全不学了。它的第一性原理就是围棋的规则。它只知道规则,然后通过自己跟自己下棋(左右互搏),从零开始,自己悟出了比人类几千年积累的棋谱更厉害的下法。

总结一下,在AI研发里应用第一性原理,就是让你跳出“现在流行什么技术”、“别人是怎么解决的”这种思维定势。转而去思考:

  • 我到底要解决什么?(问题的本质)
  • 我最需要什么?(数据的本质)
  • 最直接的实现路径是什么?(算法的本质)

这么做,不一定每次都能成功,但它最有可能帮你找到颠覆性的、真正创新的解决方案,而不是一直在别人的框架里打转。