Chat with Wiki - GNN

Answer

以下是关于您查询的“GNN”的相关内容：

关于 ChatGPT：
- 人类语言及生成语言的思维过程复杂，但 ChatGPT 这样拥有与大脑神经元数量相当连接数的纯人工神经网络能生成人类语言。
- ChatGPT 成功运作的原因在于语言在某种程度上比看起来简单，它能在训练中“隐含地发现”语言和思维中的规律。
- ChatGPT 最长路径涉及约 400 层，有数百万神经元和 1750 亿连接及权重，每次生成新 token 都需大量计算。
编码器-解码器架构：
- 是一个序列到序列的架构，输入单词序列，输出翻译序列。
- 编码器阶段产生输入语句的向量表示，解码器阶段使用此表示创建序列输出。
- 编码器和解码器可用不同内部架构实现，如递归神经网络（RNN）或更复杂的转换器块。
- RNN 编码器一次获取输入序列中每个标记并生成状态，摄入所有标记后输出代表完整输入句子的向量。
- RNN 解码器采用输入语句的向量表示，分步生成输出语句。

Content generated by AI large model, please carefully verify (powered by aily)

References

人类语言——以及生成语言所涉及的思维过程——一直被视为复杂性的巅峰。事实上，人类大脑的“仅仅”1000亿左右的神经元（或许有1万亿条连接）能够担当起这个任务似乎有些惊人。或许，人们可能会想象，大脑不仅仅是由神经元网络构成——还存在一些未被发现的新物理层面。但是，现在有了ChatGPT，我们获得了重要的新信息：我们知道一个拥有与大脑神经元数量相当的连接数的纯人工神经网络能够惊人地生成人类语言。是的，这仍然是一个庞大而复杂的系统——其神经网络权重数量大约与当前世界上可用文本的单词数量相同。但在某种程度上，仍然难以置信的是，语言的丰富性以及它所能谈论的事情可以被封装在这样一个有限的系统中。部分原因无疑是由于普遍现象（最早在规则30的例子中变得明显）：即使它们的基础规则很简单，计算过程实际上可以大大增加系统的表面复杂度。但是，正如我们上面讨论的那样，ChatGPT中使用的神经网络倾向于特别构建以限制这种现象的影响——以及与之相关的计算不可简化，以使其培训更易于访问。那么，像ChatGPT这样的东西是如何实现语言的？我认为，基本的答案是，从根本上说，语言在某种程度上比它看起来要简单。这意味着，即使ChatGPT最终采用了直截了当的神经网络结构，它仍然能够成功地“捕捉到”人类语言和背后的思维精髓。此外，在训练过程中，ChatGPT以某种方式“隐含地发现”了使这一切成为可能的语言（和思维）中的任何规律。我认为，ChatGPT的成功给我们提供了一个基础而重要的科学证据：它表明，我们可以期望发现重大的新“语言法则”——以及有效的“思考法则”。在ChatGPT中——作为神经网络构建——这些法则充其量是隐含的。但是，如果我们能够以某种方式使法则显式，就有可能以更直接、高效和透明的方式做出ChatGPT所做的那种事情。

5. 编码器-解码器架构

作者：Benoit Dherin，Google高级解决方案实验室的机器学习工程师[heading2]引言[content]大家好，我叫Benoit Dherin。在Google的高级解决方案实验室，我担任机器学习工程师。目前，围绕生成式AI和新的进步（包括新的Vertex AI功能，如GenAI Studio、Model Garden、Gen AI API）有很多令人兴奋的事情。[heading2]目标[content]我们在这些短期课程中的目标是让您扎实地了解一些使所有GenAI魔法成为可能的基本概念。[heading2]编码器-解码器架构概述[content]编码器-解码器架构是一个序列到序列的架构。这意味着它需要一个单词序列作为输入，并输出对应的翻译序列。例如：输入：英语中的句子“The cat ate the mouse”输出：法语翻译“Le chat a mangéla souris”。[heading2]架构细节[content]编码器阶段产生输入语句的向量表示。解码器阶段使用这个向量表示创建序列输出。编码器和解码器都可以用不同的内部架构来实现，比如递归神经网络（RNN）或更复杂的转换器块。[heading3]递归神经网络（RNN）编码器[content]一次获取输入序列中的每个标记，并生成表示该标记以及先前摄取的标记的状态。将所有输入标记摄入RNN后，输出一个向量，代表完整的输入句子。[heading3]RNN解码器[content]采用输入语句的向量表示，并从该表示中生成输出语句。分步进行，使用当前状态和到目前为止已解码的内容一次解码输出一个标记。

ChatGPT 是在做什么，为什么它有效？

如果看一下ChatGPT的最长路径，涉及大约400（关键的）层——在某些方面【和其他某些神经网络相比】不算很多。但是它有数百万个神经元，共计1750亿个连接，因此有1750亿个权重。需要认识到的一件事是，每次ChatGPT生成新token时，都必须进行一次涉及所有这些权重的计算。从实现角度来看，这些计算可以按照高度并行，可以方便地在GPU上完成。但对于每个生成的token，仍然必须进行1750亿次计算（实际比这还要多一点）——因此，不足为奇的是，使用ChatGPT生成一长段文本可能需要一些时间。但最终，值得注意的是，所有这些操作——虽然它们本身非常简单——却可以一起以如此出色的“类似于人类”的方式生成文本。必须再次强调（至少就我们所知），没有“终极理论”可以预见到ChatGPT的设计对类似于对于自然语言这样的任何问题必然有效【但是事实上它就是很有效】。实际上，正如我们将要讨论的那样，我认为我们必须将其视为一项——潜在惊人的——科学发现：在像ChatGPT这样的神经网络中，以某种方式捕捉到了人类大脑在生成语言方面所能做到的本质。