从这里启程的基石阅读-WayToAGI

上一篇《创建AI知识库首页》文章中，讲述了如何创建一个落地页，也就是整个知识库的首页，引导读者快速定位到感兴趣的内容。

在创建完知识库的导航首页之后，那么接下来就是「从这里启程」的第一个目录页了，我选择了飞书的「多维表格」来创建，多维表格的好处是它打破了传统表格的界限，赋予我们更大的可能性和自由度。

仪表盘

我在左下角选择了新建仪表盘，然后选择了两个词云图表和3个统计数字图表，来创建入口页面。

分为了入门的文章和深度文章两个部分，各10篇文章，由浅入深对AI有个概括性了解。词云的好处是提炼出核心的关键词，然后点击看相应的文章。

10个关键人物

如何入门一个领域，我通常会从这个领域里比较出色的人物开始了解，从人物开始探索他们开创了什么、写过什么书、主要观点什么，甚至，你可以在ChatGPT中与他们的替身进行模拟对话，来深入聊聊你感兴趣的话题。

Untitled

40+名词解释

名词用了卡片形式展示，每个链接都可以点击到维基百科来更深入阅读。

Untitled

a16z推荐的AI经典文章

在《从这里启程》目录下，我新增了《a16z推荐的AI经典文章》目录，a16z是一家总部位于硅谷风险投资公司，也称Andreessen Horowitz，之所以简称为a16z，是因为第一个字母a和最后一个字母z中间有16个字母。公司成立于2009年，创始人为Marc Andreessen 和Ben Horowitz，公司宗旨是「支持勇敢的企业家们运用科技创建未来」，曾先后投资了Facebook、Twitter、Skype、Airbnb、Stripe等等知名公司。

它在5月底发表了一篇文章《AI Canon》，非常好地分享了过去几年中对AI领域产生重要影响的论文、博客文章、课程和指南，上周我做了翻译，但我还是想把其中五篇入门文章单独拿出来分享一下：

1.《软件2.0》

软件2.0（Software 2.0）

Untitled

这是OpenAI的创始成员、原特斯拉 AI 部门负责人Andrej Karpathy于2017年写的文章。他提出的论点是我们将不再真正编写代码。我们只是寻找数据并将其输入机器学习系统。在这种情况下，我们可以想象软件工程师的角色转变为「数据管理者」或「数据推动者」。

转变进行时：在过去几年，对于这些领域，我们放弃了尝试通过显式写代码的方式去解决复杂问题，取而代之的，是转向了软件2.0。

2.《GPT的现状》

GPT的现状（State of GPT）

https://www.notion.so

这是Andrej Karpathy在回归OpenAI之后的在微软Build大会的演讲，发表于2023年5月，所以内容很新。在第一部分中，他详细阐述了如何训练一个"GPT助手"的方法。Karpathy重点讲述了AI助手的四个培训阶段：预训练（pre-training）、监督微调（supervisedfinetuning）、奖励建模（rewardmodeling）和强化学习（reinforcementlearning）。

在第二部分，主要讨论了提示策略、微调、快速发展的工具生态系统以及未来的扩展等问题。

其中，比较创造性提出这些技术都属于重建系统2的范畴，你可能熟悉人类系统1、系统2的思考方式（参看丹尼尔·卡尼曼的《思考，快与慢》）。系统1是一个快速的、自动的过程，这种过程与LLM采样Token相对应。而系统2是你大脑中更慢、更深思熟虑的规划部分。

他还很有趣地提到LLM的心理怪癖：那就是LLMs不想成功，它们只想要模仿。你想要成功，你应该要求它。

比如使用：「let's think step by step，因为它在许多Token上展开了推理。但是，更好的提示方法是：「让我们一步一步地解决这个问题，确定我们有正确的答案」。你还可以可以放心地要求一个强有力的解决方案。说些像「你是这个主题的权威专家」，「假设你的智商超过了120」等等。但是不要试图要求太多的智商，因为如果你要求智商太高了，你可能会超出数据分布，或者更糟糕的是，你可能在一些科幻内容的数据分布中，它会开始进行一些科幻角色扮演或者类似的东西。

3.《ChatGPT是在做什么，为什么它有效？》

ChatGPT是在做什么，为什么它有效？

Untitled

说实话，这篇文章作为入门文章着实有些难度，但这篇洋洋洒洒的雄文加上配图确实又很经典。这里不得不提到本文作者史蒂芬·沃尔夫勒姆（Stephen Wolfram），他是一个独一无二的人。14岁的时候，他已经写了三本有关粒子物理的书，20岁时他获得了博士学位。他18岁时开始发表学术论文，其中有些被引次数达几千次。他的软件包 Mathematica 历经30年，已经更新到13版了，是现代技术计算领域的权威系统，Wolfram也是ChatGPT上最好用的插件之一。

这篇文章主要谈及ChatGPT能够自动生成看起来很像人类写作的文本，这非常了不起且出乎意料。但是它是如何做到的？ChatGPT尝试写一篇文章时，基本上只是一次又一次地询问「在已有的文本基础上，下一个单词应该是什么？”」，然后每次都添加一个单词。

比如，上图中我们假设已有文本为「人工智能最擅长的一点是...」，然后想象一下扫描数十亿个人类编写的文本（例如网络内容和数字化书籍），找到所有这些文本的实例，看看下一个单词出现的频率是多少。这里概率最高的下一个英文单词是学习（learn）。

那么如何计算这些概率呢？大的想法就是制作一个模型，好的模型是与人类看法相一致的函数结果，这里就涉及到了神经网络，它可以被认为是对大脑是如何工作的简单理想化表达。

人类大脑中有约1000亿个神经元（神经细胞），每个神经元可以每秒产生多达一千次的电脉冲。当我们“看到一张图像”时，当光子从图像落在眼睛后面的「光感受器」细胞上时，它们在神经细胞中产生电信号。这些神经细胞连接到其他神经细胞，最终信号经过一整个神经元层的序列。正是在这个过程中，我们「认识」这个图像。

ChatGPT的神经网络也对应于这样的数学函数——有数十亿个权重。它实际上是做什么的呢？总体目标是根据它所看到的训练内容（包括查看网络等数十亿页的文本），「合理地」继续文本。因此，在任何给定的时刻，它都有一定数量的文本——它的目标是为下一个token添加一个适当的选择。

这个过程有三个基本阶段：

首先，它获取与迄今为止的文本相对应的token序列，并找到表示它们的嵌入（即一组数字的数组）。
然后，它在这个嵌入上进行操作——以“标准神经网络方式”，值“逐层流动”到网络的连续层中——以生成一个新的嵌入（即一个新的数字数组）。
再然后，它从这个数组的最后一部分中生成一个大约有50,000个值的数组，这些值将变成不同可能的下一个 token 的概率。

原文非常详细解释了这个过程，感兴趣的话推荐阅读一下。他其中的一个观点非常值得深思：人类语言（以及背后的思维模式）的结构比我们想象的要简单和更具有“法律属性”。ChatGPT已经隐含地发现了它。

4. 《解析Transformer模型》

解析Tansformer模型：理解GPT-3、BERT和T5背后的模型

Untitled

如果您读懂了上一篇雄文，那么这篇文章简直会惊呼讲得太浅显易懂了。这是Google Labs的Dale Markowitz介绍ChatGPT背后核心Transformer模型的一篇文章，发表于2021年5月。

**神经网络是分析图像、视频、音频和文本等复杂数据类型的一种非常有效的模型。针对不同类型的数据有专门优化过的的神经网络。**例如，在分析图像时，我们通常会使用卷积神经网络，它们模仿了人脑处理视觉信息的方式。在2017年推出Transformer之前，使用深度学习来理解文本的方法是使用一种称为循环神经网络(RNN)的模型。

但RNN的问题是：

RNN很难处理冗长的文本序列，比如长段落或文章，它们读到一段的结尾时，会忘记开头发生了什么
RNN很难训练，它们很容易受到所谓的消失/爆炸梯度问题的影响
RNN很难并行化，因为RNN是按顺序处理单词的，这意味着你不能通过添加更多GPU来加快训练速度，这也意味着你不能用那么多数据来训练它们

所以，Transformer是更好的解决方案，在一定程度上完全抛弃了RNN。这就是为什么2017年的论文被称为《注意力就是你需要的一切》。

Transformer有三个主要概念：

位置编码：其思路是将输入序列中的所有单词后面加上一个数字，表明它的顺序。将语序存储为数据，而不是靠网络结构，这样你的神经网络就更容易训练了。
注意力机制：注意力是一种机制，它允许文本模型在决定如何翻译输出句子中的单词时**“查看”原始句子中的每一个单词**。
自注意机制：让神经网络强大的是，它们通常会自动建立起训练数据有意义的内部表示。在文本数据上训练的模型可能自动学习了词性、语法规则以及单词是否同义。

5. 《稳定扩散（Stable Diffusion）是如何运作的》

稳定扩散（Stable Diffusion）是如何运作的

Untitled

5篇入门文章的最后一篇讲的是图像生成背后的核心模型：稳定扩散（Stable Diffusion）。

为了生成艺术，我们给稳定扩散提供了一个实际上只是纯噪点的初始图像。但是，我们相当残忍地跟计算机程序撒谎说：“这是一幅超级充满噪点的H.R. Giger（瑞士画家、雕塑家与布景师，《异形》中的外星生物就是他的作品）风格的外星人弹吉他的画——你能帮我清理一下吗？” 于是机器学习模型基于统计数据，开始清理噪点，并依照你的输入要求绘制每个像素上概率最高的图像。

假设，我们要生成一个涨潮的照片，我们可能写下如下关键词：一张长曝光彩色照片，描绘了朽迹斑斑的混凝土台阶伸向海洋，混凝土栏杆两旁，正面视角，对称美感，如梦如幻，充满艺术气氛。（A long exposure color photograph of decaying concrete steps leading down into the ocean, with concrete railings, head on view, symmetry, dream like, atmospheric.）

在稳定扩散v1.5中用来表示这些词的实际数字如下（你可以粗略地把这些数字看作是每一个代表单词含义的不同方面）：

初始噪声和我们的文本描述是我们称之为稳定扩散的输入，不同的输入在这些表格中会有不同的值。我们也将一组大得多的数字插入到这些方程式中，但每次都是相同的——这些被称为稳定扩散的**参数。举个例子，还记得高中时方程式绘制线条吗y = 3x + 2，**那么“x”是我们的输入，“y”是最终图像，数字 3 和 2 是我们的参数，只不过实际的参数要大得多，Stable Diffusion 中大约有 10 亿个参数。

而这10亿个参数，不是我们选择的——我们甚至无法解释其中的任何一个！这就是为什么我们无法完全解释稳定扩散的工作原理。我们对这些方程式的作用有一些直观的理解，但是很多事情都隐藏在那些数字的值中，我们不能完全理解。这很神奇，不是吗？

那是怎么找到这10个参数呢？首先选择10亿个随机数字来使用，应用了一个我们称之为训练的数学过程，该过程逐渐将值调整为有效的值，此训练涉及到一个巨大的训练样本集，我们用许多不同的训练样本做了数亿次，模型越来越好。随着我们训练的进行，收益逐渐减少，最终我们会到达一个模型无法从进一步训练中受益的点。一旦完成了模型的训练，他们就发布了参数值供所有人使用。