OpenAI 能够跑通所有 AGI 技术栈的方法原理主要基于以下几个方面:
比如GPT-4相比于GPT-3.5,可以完成明显更复杂的任务,比如写一个26行诗来证明素数是无限的,每行开头必须是从A到Z。比如Sora相对于之前的模型,它的时空一致性,以及对现实中物理规律的初步掌握。没有Emerging properties,我们很难直观感觉到突破性的变化,很难感知「我们真的向AGI前进了一步」,或者是「我们跑通了一个技术栈」。从上面的公理中,我们就可以理解OpenAI的各种决策了,并且可以预见OpenAI未来的行为。推论1:世界模型。大量数据从哪里来?什么东西能够产生最多的数据?AGI需要什么样的数据才能通用地处理世界上的一切事情?答案就是:世界本身。世界本身产生最多的数据(或者极端一点,世界就是数据),而世界产生的数据,也是AGI需要的数据的最小集合,因为我们也只需要或者只能让AGI处理这个世界的事情。可以预见,OpenAI未来还会执着于持续获得或者构造数据。推论2:世界生成模型。要最有效的利用数据,我们需要最困难的,需要最多数据,且能利用所有数据的任务。这样的任务可能只有一个:模拟和生成整个世界(人类所有的智能只是一小块)。因此OpenAI需要做生成模型,并且是能够模拟和生成物理世界的模型,通过生成这个世界,实现对世界的理解。最近火爆的Sora便是其中之一。这个想法也和费曼的名言对应:「我不能创造的,我也不能真正理解」。可以预见,OpenAI未来还会在更多的模态和数据上去做生成模型。推论3:通用模型。
OpenAI的方法论是通往AGI的方法论。这个方法论有着非常清晰的逻辑结构,和非常明确的推论。我们甚至可以用公理化的方式来描述它,怎么说呢,感觉上有一种宿命感,。这套方法论的大厦构建于以下几个「公理」(打引号是因为它们不是真正的「公理」,更多是经验规律,但是在AGI方法论中,它们起到了公理的作用):公理1:The bitter lesson*。我认为所有做AI的人都应该熟读这篇文章。「The bitter lesson」说的事情是,长期来看,AI领域所有的奇技淫巧都比不过强大的算力夹持的通用的AI算法(这里「强大的算力」隐含了大量的训练数据和大模型)。某种意义上,强大的算力加持的通用的AI算法才是AGI路径的正道,才是AI技术真正进步的方向。从逻辑主义,到专家系统,到SVM等核方法,到深度神经网络,再到现在的大语音模型,莫不过此。*www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf公理2:Scaling Law。这条公理说了,一旦选择了良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法,那么你就能找到一套通用规律,保证数据越多,模型越大,效果越好。而且这套规律稳定到了可以在训练模型之前就能预知它的效果:如果说公理1 The bitter lesson是AGI的必要条件——大模型,大算力,大数据,那么公理2 Scaling Law就是AGI充分条件,即我们能找到一套算法,稳定的保证大模型,大算力,大数据导致更好的结果,甚至能预测未来。
而具体来谈,就是我们之前说的「良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法」,在GPT和Sora中都有相应的内容:在GPT中,良好且通用的数据表示,是tokenizer带来的embedding。良好且通用的数据标注是文本清理和去重的一套方法(因为自然语言训练是unsupervised training,数据本身就是标注)。良好且通用的算法就是大家熟知的transformers+autoregressive loss。在Sora中,良好且通用的数据表示,是video compress network带来的visual patch。良好且通用的数据标注是OpenAI自己的标注器给视频详细的描述(很可能是GPT-vision)。良好且通用的算法也是大家熟知的transformers+diffusion「良好且通用的数据表示,良好且通用的数据标注,良好且通用的算法」同时也为检测scaling law做好了准备,因为你总是可以现在更小规模的模型和数据上检测算法的效果,而不用大幅更改算法。比如GPT1,2,3这几代的迭代路径,以及Sora中OpenAI明确提到visual patch使得他们用完全一样的算法在更小规模的数据上测试。公理3:Emerging properties。这条公理其实是一条检验公理:我怎么知道scaling law带来「质变」,而不仅仅是「量变」?答案是:你会发现,随着scaling law的进行,你的模型突然就能稳定掌握之前不能掌握的能力,而且这是所有人能够直观体验到的。