Chat with Wiki - agi的方法原理

Answer

OpenAI 能够跑通所有 AGI 技术栈的方法原理主要基于以下几个方面：

方法论明确：有着清晰的逻辑结构和明确的推论，甚至可以用公理化的方式描述。
- 公理 1：The bitter lesson。长期来看，AI 领域所有的奇技淫巧都比不过强大的算力夹持的通用的 AI 算法，强大的算力加持的通用的 AI 算法才是 AGI 路径的正道。
- 公理 2：Scaling Law。一旦选择了良好且通用的数据表示、标注和算法，就能找到一套通用规律，保证数据越多、模型越大、效果越好，甚至能在训练模型之前预知效果。
- 公理 3：Emerging properties。这是一条检验公理，用于判断 scaling law 带来的是质变而非量变，即随着 scaling law 的进行，模型会突然稳定掌握之前不能掌握的能力。
具体实践：
- 在 GPT 中，良好且通用的数据表示是 tokenizer 带来的 embedding，数据标注是文本清理和去重的一套方法，算法是大家熟知的 transformers + autoregressive loss。
- 在 Sora 中，良好且通用的数据表示是 video compress network 带来的 visual patch，数据标注是 OpenAI 自己的标注器给视频的详细描述，算法是大家熟知的 transformers + diffusion。
数据和任务：
- 大量数据从世界本身获取，世界产生的数据是 AGI 需要的数据的最小集合，OpenAI 未来会执着于持续获得或者构造数据。
- 要最有效地利用数据，需要做生成模型，能够模拟和生成整个世界，OpenAI 未来还会在更多的模态和数据上去做生成模型。
- 通用模型也是 OpenAI 追求的方向。

Content generated by AI large model, please carefully verify (powered by aily)

References

GPT、DALL·E、Sora，为什么 OpenAI 可以跑通所有 AGI 技术栈？

比如GPT-4相比于GPT-3.5，可以完成明显更复杂的任务，比如写一个26行诗来证明素数是无限的，每行开头必须是从A到Z。比如Sora相对于之前的模型，它的时空一致性，以及对现实中物理规律的初步掌握。没有Emerging properties，我们很难直观感觉到突破性的变化，很难感知「我们真的向AGI前进了一步」，或者是「我们跑通了一个技术栈」。从上面的公理中，我们就可以理解OpenAI的各种决策了，并且可以预见OpenAI未来的行为。推论1：世界模型。大量数据从哪里来？什么东西能够产生最多的数据？AGI需要什么样的数据才能通用地处理世界上的一切事情？答案就是：世界本身。世界本身产生最多的数据（或者极端一点，世界就是数据），而世界产生的数据，也是AGI需要的数据的最小集合，因为我们也只需要或者只能让AGI处理这个世界的事情。可以预见，OpenAI未来还会执着于持续获得或者构造数据。推论2：世界生成模型。要最有效的利用数据，我们需要最困难的，需要最多数据，且能利用所有数据的任务。这样的任务可能只有一个：模拟和生成整个世界（人类所有的智能只是一小块）。因此OpenAI需要做生成模型，并且是能够模拟和生成物理世界的模型，通过生成这个世界，实现对世界的理解。最近火爆的Sora便是其中之一。这个想法也和费曼的名言对应：「我不能创造的，我也不能真正理解」。可以预见，OpenAI未来还会在更多的模态和数据上去做生成模型。推论3：通用模型。

GPT、DALL·E、Sora，为什么 OpenAI 可以跑通所有 AGI 技术栈？

OpenAI的方法论是通往AGI的方法论。这个方法论有着非常清晰的逻辑结构，和非常明确的推论。我们甚至可以用公理化的方式来描述它，怎么说呢，感觉上有一种宿命感，。这套方法论的大厦构建于以下几个「公理」（打引号是因为它们不是真正的「公理」，更多是经验规律，但是在AGI方法论中，它们起到了公理的作用）：公理1:The bitter lesson*。我认为所有做AI的人都应该熟读这篇文章。「The bitter lesson」说的事情是，长期来看，AI领域所有的奇技淫巧都比不过强大的算力夹持的通用的AI算法（这里「强大的算力」隐含了大量的训练数据和大模型）。某种意义上，强大的算力加持的通用的AI算法才是AGI路径的正道，才是AI技术真正进步的方向。从逻辑主义，到专家系统，到SVM等核方法，到深度神经网络，再到现在的大语音模型，莫不过此。*www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf公理2:Scaling Law。这条公理说了，一旦选择了良好且通用的数据表示，良好且通用的数据标注，良好且通用的算法，那么你就能找到一套通用规律，保证数据越多，模型越大，效果越好。而且这套规律稳定到了可以在训练模型之前就能预知它的效果：如果说公理1 The bitter lesson是AGI的必要条件——大模型，大算力，大数据，那么公理2 Scaling Law就是AGI充分条件，即我们能找到一套算法，稳定的保证大模型，大算力，大数据导致更好的结果，甚至能预测未来。

GPT、DALL·E、Sora，为什么 OpenAI 可以跑通所有 AGI 技术栈？

而具体来谈，就是我们之前说的「良好且通用的数据表示，良好且通用的数据标注，良好且通用的算法」，在GPT和Sora中都有相应的内容：在GPT中，良好且通用的数据表示，是tokenizer带来的embedding。良好且通用的数据标注是文本清理和去重的一套方法（因为自然语言训练是unsupervised training，数据本身就是标注）。良好且通用的算法就是大家熟知的transformers+autoregressive loss。在Sora中，良好且通用的数据表示，是video compress network带来的visual patch。良好且通用的数据标注是OpenAI自己的标注器给视频详细的描述（很可能是GPT-vision）。良好且通用的算法也是大家熟知的transformers+diffusion「良好且通用的数据表示，良好且通用的数据标注，良好且通用的算法」同时也为检测scaling law做好了准备，因为你总是可以现在更小规模的模型和数据上检测算法的效果，而不用大幅更改算法。比如GPT1，2，3这几代的迭代路径，以及Sora中OpenAI明确提到visual patch使得他们用完全一样的算法在更小规模的数据上测试。公理3:Emerging properties。这条公理其实是一条检验公理：我怎么知道scaling law带来「质变」，而不仅仅是「量变」？答案是：你会发现，随着scaling law的进行，你的模型突然就能稳定掌握之前不能掌握的能力，而且这是所有人能够直观体验到的。