Chat with Wiki - ChatGPT的底层原理是什么

Answer

ChatGPT 的底层原理主要包括以下几个方面：

数据获取与训练：从网络、书籍等来源获取大量人类创作的文本样本，然后训练神经网络生成“类似”的文本。
神经网络结构：由非常简单的元素组成，尽管数量庞大。基本操作是为每个新单词（或单词部分）生成“输入”，然后将其“通过其元素”（没有任何循环等）。
生成文本方式：通过自回归生成，即把自己生成的下一个词和之前的上文组合成新的上文，再生成下一个词，不断重复生成任意长的下文。
训练目的：不是记忆，而是学习以单字接龙的方式训练模型，学习提问和回答的通用规律，实现泛化，以便在遇到没记忆过的提问时，能利用所学规律生成用户想要的回答。
与搜索引擎的区别：搜索引擎无法给出没被数据库记忆的信息，而ChatGPT作为生成模型，可以创造不存在的文本。

其结果表明人类语言（以及背后的思维模式）的结构比我们想象的要简单和更具有“法律属性”，ChatGPT已经隐含地发现了它。同时，当人类生成语言时，许多方面的工作与ChatGPT似乎相当相似。此外，GPT的核心是单字接龙，在翻译等场合应用时，先直译再改写能使Transform机制更好地起作用。

Content generated by AI large model, please carefully verify (powered by aily)

References

ChatGPT 是在做什么，为什么它有效？

ChatGPT的基本概念在某种程度上相当简单。从网络、书籍等来源中获取大量人类创作的文本样本。然后训练神经网络生成“类似”的文本。特别是让它能够从“提示”开始，然后继续生成“类似于训练内容”的文本。正如我们所见，ChatGPT中的实际神经网络由非常简单的元素组成，尽管有数十亿个。神经网络的基本操作也非常简单，基本上是为每个新单词（或单词部分）生成“输入”，然后将其“通过其元素”（没有任何循环等）。但是，这个过程能够产生成功地“类似于”网络、书籍等内容的文本，这是非常卓越和出乎意料的。它不仅是连贯的人类语言，而且“说的话”是“遵循其提示”的，利用其“读到”的内容。它并不总是说出“全局意义上的话”（或对应于正确的计算），因为（例如，没有访问Wolfram|Alpha的“计算超能力”）它只是根据训练材料中的“声音类似”的东西“说出”“听起来正确”的东西。ChatGPT的具体工程使其相当引人入胜。但是，最终（至少在它可以使用外部工具之前），ChatGPT仅仅从它积累的“传统智慧统计数据”中提取了一些“连贯的文本线索”。但是，其结果有多么类似于人类。正如我所讨论的，这表明了一些至少在科学上非常重要的事情：人类语言（以及背后的思维模式）的结构比我们想象的要简单和更具有“法律属性”。ChatGPT已经隐含地发现了它。但是我们可能可以用语义语法、计算语言等明确地揭示它。ChatGPT在生成文本方面的表现非常出色，结果通常非常接近我们人类所产生的。那么这是否意味着ChatGPT像大脑一样工作呢？它的基本人工神经网络结构最终是基于大脑的理想化模型的。当我们人类生成语言时，许多方面的工作似乎是相当相似的，这似乎是非常可能的。

直播一期：知识库及 GPT 基础介绍

具体来说就是给他任意⻓的上文，他会用自己的模型去生成下一个词那他是怎么回答那些⻓内容的呢？答案是把它自己生成的下一个词，和之前的上文组合成新的上文，再让它生成下一个词，不断重复就可以生成任意⻓的下文。该过程也叫做自回归生成。上文：我爱下文：香菜？中国？原神？每一次的回答就像掷骰子或抽卡，训练模型可以让答案更接近用户想要的答案（当然提示词的撰写也非常重要，后面的直播会说到）[heading2]?大型模型的训练方式[heading3]Chat GPT ??‍♀️搜索引擎[content]难道说要把所有的提问回答组合都给chat GPT t来做单字接⻰吗？其实不需要训练的主要目的不是记忆,而是学习以单字接⻰的方式来训练模型。不仅仅是为了让模型记住某个提问和回答,数据库已经将所有信息都记忆好了,直接搜索就可以得到回答非要训练单字接⻰,为的就是让模型学习提问和回答的通用规律。以便在遇到没记忆过的提问时，也能利用所学的规律生成用户想要的回答，这种举一反三的目的也叫做泛化。学习材料的作用只是调整模型，以得到通用模型，为的是能处理未被数据库记忆的情况因此chat GPT也被称为生成模型，生成模型与搜索引擎非常不同，搜索引擎无法给出没被数据库记忆的信息，但生成语言模型可以创造不存在的文本。

宝玉：一个简单的Prompt大幅提升ChatGPT翻译质量，告别“机翻感”

群友‘Dr.KRIS张有鱼3世’点评：非常好的思路，底层原因在于GPT的核心就是单字接龙。以前在有相应背景（角色身份场景），这个时候从一个语言翻译到另一个语言，因为它生成的上下文是另一个语言，也就造成了效果生硬。而先直译再改写情况下，上下文是同一个语种，Transform机制就能更好起作用。类似的，这个也可以在其它场合得到应用。我倒是觉得值得写一篇高质量的论文了。[heading2]小技巧：[content]沉浸式翻译使用Gemini API，是支持配置Prompt的