Chat with Wiki - 科学家现在完全了解gpt是怎么工作的吗

Answer

目前科学家尚未完全了解 GPT 的工作原理。以下是一些关于 GPT 工作原理的相关知识：

Openai 的科学家认为，GPT 产生智能是因为神经网络将知识进行了复杂的压缩，在询问问题时将其中的知识解码（解压缩）。大语言模型的数据压缩能力越强，意味着其 AGI 智能越强。遵循最小描述长度原理和奥卡姆剃刀原则，最佳解释应是对数据进行尽可能短而准确描述的模型，模型描述长度越短，泛化性越好，也就越智能。
GPT 中的知识存在方式包括：LLM 中有两类神经元，单语义神经元只对输入里某个特殊的知识点产生响应，多语义神经元则相反。在模型学习过程中，为了增加模型参数的利用效率，“单语义神经元”会被分配给重要特征，“多语义神经元”会分配给不太重要的特征，而对更加不重要的特征，模型完全不进行编码。此外，存在知识回路，某个任务的 Prompt 输入 Transformer 后，在网络中存在一些完成这个任务的关键路径，信息主要沿着这条路径向上传播，在传播过程中不断进行信息传递或知识加工，最终完成任务，这与人脑的某些信息处理回路相似。
GPT3 的训练是将模型暴露于大量文本的过程，包含 3000 亿个文本标记的数据集用于生成模型的训练示例。训练时，我们只向模型展示特征并要求它预测下一个单词，模型的预测会有错误，计算其预测中的误差并更新模型，以便下次做出更好的预测，重复数百万次。GPT3 实际上一次生成一个 token 的输出。
GPT 全称是生成式预训练转换器模型（Generative Pre-trained Transformer）。生成式指的是大模型根据已有的输入为基础，不断计算生成下一个字词（token），从而逐字完成回答的过程。例如，一开始给大模型一些提示词 Prompt，大模型会结合自身“大脑中存储的知识”进行计算推理，算出下一个单词的概率最大并输出，新的输出会和过去的输入一并成为新的输入，用来计算下一个词，直到计算出下一个词是[end of text]的概率最大，于是结束输出。

Content generated by AI large model, please carefully verify (powered by aily)

References

Openai的科学家坚信，GPT产生智能的原因是神经网络将知识进行了复杂的压缩，在询问问题时，实际上是将其中的知识解码（解压缩）：大语言模型具备越强的数据压缩能力，意味着它具备越强的AGI智能。最小描述长度原理，奥卡姆剃刀原则（“如无必要，勿增实体”）的形式化表述：假设我们有很多模型可以对手上的数据作出解释，那么其中最佳解释应该是对该数据进行尽可能短而准确描述的模型，模型描述长度越短，则其泛化性就会越好，也就是我们说的越智能。GPT中的知识怎样存在的：LLM中的两类神经元：单语义神经元，只对输入里某个特殊的知识点产生响应（类似人脑神经）；与此相反的多语义神经元。在模型学习过程中，为了增加模型参数的利用效率，“单语义神经元”会被分配给重要特征，“多语义神经元”会分配给不太重要的特征，而对更加不重要的特征，则模型完全不进行编码。知识回路：某个任务的Prompt输入Transformer后，在网络中存在一些完成这个任务的关键路径，信息主要沿着这条路径向上传播，在传播过程中不断进行信息传递或知识加工，最终完成任务。又是与人脑的某些信息处理回路是很相似。3、语言模型的未来语言智能如何映射到现实，世界模型的中转，人类的落日？一种对未来的理解是张俊林大佬所说的，语言模型是物理世界的参数倒影。GPT对世界的理解：对隐藏在文字表象之后的世界模型进行解码复原，并存储在GPT的模型参数里，形成了物理世界的参数倒影。使用工具扩展语言模型。乐昆提出的世界模型，学习推理、使用自我监督、摒弃自回归。

GPT3的工作原理

原文地址：https://jalammar.github.io/how-gpt3-works-visualizations-animations/科技界对GPT3的炒作[热闹非凡](https://www.theverge.com/21346343/gpt-3-explainer-openai-examples-errors-agi-potential)。大规模语言模型（如GPT3）的能力开始让我们感到惊讶。虽然对于大多数企业来说，向客户展示的这些模型还不是完全可靠，但它们正在展现出聪明的火花，必将加速自动化的进程和智能计算机系统的可能性。让我们揭开GPT3的神秘面纱，了解它的训练方式和工作原理。经过训练的语言模型会生成文本。我们可以选择向其传递一些文本作为输入，这会影响其输出。输出是根据模型在训练期间扫描大量文本时“学到”的内容生成的。训练是将模型暴露于大量文本的过程。该过程已经完成。您现在看到的所有实验都来自那个经过训练的模型。预计需要355个GPU年和460万美元。包含3000亿个文本标记的数据集用于生成模型的训练示例。例如，这些是从顶部的一个句子生成的三个训练示例。您可以了解如何在所有文本上滑动窗口并制作大量示例。该模型通过一个例子进行了介绍。我们只向它展示特征并要求它预测下一个单词。模型的预测将会是错误的。我们计算其预测中的误差并更新模型，以便下次做出更好的预测。重复数百万次现在让我们更详细地看看这些相同的步骤。GPT3实际上一次生成一个token的输出（现在我们假设token是一个单词）。

走入AI的世界

总结一下，以上这段讨论，你要重点记住这句话：模仿人类大脑结构的AI，也自然而然的表现出人的特征，很多我们应对大模型回答不及预期的解决之道，也和人与人交流沟通的技巧如出一辙，息息相关。关于这一点，我们会在后续各种真实案例的分析拆解中再来讨论。GPT的全称是生成式预训练转换器模型（Generative Pre-trained Transformer），他的名字里就蕴含了大量重要的信息，接下来我们来聊聊GPT这三个字母的分别含义：图14 Generative Pre-trained Transformer生成式（Generative）：所谓生成式，说的是大模型是根据已有的输入为基础，不断计算生成下一个字词（token），从而逐字完成回答的过程。这一过程，像极了一个单字接龙的游戏，图15中给出了一个简单的例子做为说明：1.一开始我们给了大模型一些提示词Prompt，为了简化，在图中这个提示词只有一个单词：How；2.接下来，大模型会结合自己“大脑中存储的知识”进行计算推理，算出how后面接are这个单词的概率最大，于是输出are接在how后面；3.在已知how are的情况下，大模型再次推理计算，算出how are后面接you这个单词概率最大，于是输出you接在how are后面；4.不断重复上面步骤，每次大模型会多输出一个词（token），新的输出会和过去的输入一并成为新的输入，用来计算下一个词；5.直到计算出下一个词是[end of text]的概率最大，于是结束输出，回答结束（[end of text]是一个特殊的token，用来终止对话输出）