Chat with Wiki - transformer是通往AGI的必经之路吗？什么是世界模型，当前有哪些进展

Answer

Transformer 并非通往 AGI 的必经之路。在已知的 token space 中，Transformer 符合一些条件，但在更通用的场景中不太符合。AI 本质包含一堆 scaling law，一个值得被 scale up 的架构是基础，且架构要支持不断加入更多数据。当前在数据方面，如限定问题的数据生成有进展，但通用问题还没有完全的解法。

世界模型方面，目前的研究正在以指数级别的速度增长。对于语言这种有结构、有规则的指令系统，其逻辑受指向描述变化，如早期语言模型建模中用到的 RNN、LSTM 及当前 LLM 的 Transformer 模型结构，都是对语言序列性所体现逻辑结构的适配。同时也在思考是否存在其他形式的符号化表征及相应的建模结构，以及对于非碳基生物语言的使用情况等。未来通往 AGI 的道路并非简单，需要探寻 RL 与 LLM 的本质普遍性。

Content generated by AI large model, please carefully verify (powered by aily)

References

融合RL与LLM思想，探寻世界模型以迈向AGI「中·下篇」

“AI本质就是一堆scaling law..今天能看到最好的模型是10的25到26次方FLOPs这种规模。这个数量级接下来肯定还会持续增长，所以我认为算力是个必要条件，因为机器学习或者AI研究了七八十年，唯一work的东西其实是scaling Law，就是放大这几种生产要素。你需要一个同时满足scalability和generality这两点的架构，但今天其实很多架构已经不满足这两条了。transformer在已知的token space符合这两条，但放大到一个更通用的场景，也不太符合。数据也是一个生产要素，包括整个世界的数字化，和来自用户的数据。现在“吃”的是base model的scaling law，未来可能会去“吃”用户这个数据源的scaling law。因为其实alignment也有scaling law，它肯定是可以被解决的，只要你能找到对的数据。AI本质就是一堆scaling law。一个值得被scale up的架构是基础，这个架构首先得支持不断加入更多数据，然后数据才会真的成为瓶颈。我们现在说的数据瓶颈，从文本模态上，2024年就会遇到，但多模态数据的引入进来会把这个问题推迟1-2年。如果视频和多模态的卡点解决不了，那文本的数据瓶颈就会很关键。这点上其实我们也有些进展——如果限定了问题，比如数学或者写代码，数据是相对好生成的。通用的问题现在还没有完全的解法，但是存在一些方向可以去探索。统计模型没有什么问题。当next token prediction足够好的时候，它能够平衡创造性和事实性。

入门经典必读

作者：[Derrick Harris](https://a16z.com/author/derrick-harris/)，[Matt Bornstein](https://a16z.com/author/matt-bornstein/)和[Guido Appenzeller](https://a16z.com/author/guido-appenzeller/)原文地址：https://a16z.com/2023/05/25/ai-canon/译者：通往AGI之路后半部分：[目录：a16z推荐进阶经典](https://ywh1bkansf.feishu.cn/wiki/EXX1w3QyFiBz8fknLFYce7gvnug)人工智能的研究正在以指数级别的速度增长。对于AI专家来说，跟上所有新发布的内容已经非常困难，对于初学者来说更是难上加难。因此，在这篇文章中，我们分享了一份我们信赖的、用于更深入了解现代AI的精选资源列表。我们称之为“AI典藏”，因为这些论文、博客文章、课程和指南在过去几年中对该领域产生了巨大影响。我们首先对Transformer和Latent Diffusion（潜在扩散）模型进行了简单的介绍，这些模型正在推动当前的AI浪潮。接下来，我们深入研究了技术学习资源；构建大型语言模型（LLMs）的实用指南；以及AI市场的分析。最后，我们列出了一份里程碑式研究成果的参考列表，从2017年谷歌发布的“Attention is All You Need”开始——这篇论文向世界介绍了Transformer模型，并开启了生成AI的时代。

融合RL与LLM思想，探寻世界模型以迈向AGI「中·下篇」

「逻辑性」:语言是一种有结构、有规则的指令系统。语言的逻辑受语言的指向描述而变化。如:我是一个中国人/我像一个中国人,1+1=2/1*1=1,this is an apple/this is a car等。在上述语言的「指向性」中,能力体会语言这种单一的词、字符号化可以指向真实世界的某一个概念,然而在这个世界中,事物亦是可以组织或者事物间是有着逻辑上的关联和结构的,因此除了抽象概念的一对一映射指向,语言作为一种序列组织结构,在序列的这种形式化表征上,可以体现出复杂的逻辑性或数学结构,实现对真是物理世界的进一步抽象表征。比如在早期语言模型建模中经常用到过的RNN、LSTM,当前LLM的Transformer模型结构,正式对这种语言序列性所体现出的逻辑机构进行的适配。当然图结构作为一种非欧符号化表征,GCN模型也是对知识图谱符号的一种建模结构适配。这里有兴趣的读者可以再延申一下思考:世界上是否存在除了自然语言、变成语言、数学语言等其它形式的符号化表征的存在,如果存在,那么用于机器学习建模的模型结构应该是什么样子的呢?同时,对于非碳基生物来讲,语言是否像能够对人类使用一样,进行得那么顺畅和友好?「这里同样再栓个扣子,不知大家是否还记得在上篇论述AMIE的过程中,提到了语言或其它符号的分布或构象所衍生出的探索语义空间的更深一层的表征潜力,关联LLM的pre-traning到super alignment,再到杨植麟所提到的LLM在进行pre-traning到alignment过程中的scaling law本质,我们似乎能够体会到未来通往AGI的道路并非如此简单,这也是本篇文章想要表达的核心观点之一,也是希望能够探寻RL与LLM的本质普遍性,试图