Chat with Wiki - 大模型的原理

Answer

大模型的原理如下：

大模型是通过输入大量语料，让计算机获得类似人类的“思考”能力，从而能够理解自然语言，并进行文本生成、推理问答、对话、文档摘要等工作。其训练和使用过程可以类比为上学参加工作：
- 找学校：训练大模型需要大量计算，GPU 更合适，只有有资本购买大量 GPU 的才有能力训练。
- 确定教材：大模型需要大量的数据量，几千亿序列（Token）的输入是基本标配。
- 找老师：采用合适的算法讲述数据内容，让大模型更好理解 Token 之间的关系。
- 就业指导：为让大模型更好胜任某一行业，需要进行微调（fine tuning）指导。
- 搬砖：就业指导完成后，进行如翻译、问答等工作，在大模型里称之为推导（infer）。
大模型的本质是一个基于语言的概率模型，它返回其认为概率最大的内容。如果直接问大模型而不提供 Prompt，相当于大模型随机给出答案。有了 Prompt，相当于给了一个模板，包括对模型的要求、输入和输出的限制，大模型在这个限制下得到概率最大的答案。
大模型与当下智能语音技能的 NLU 存在本质差别。语音技能 NLU 是通过一系列规则、分词策略等训练而成，其运作逻辑规律可观测，具有 if-else 式的逻辑性。而大模型凭借海量数据在向量空间中学习知识的关联性形成，其运作逻辑难以观测，脱离了 if-else 的层面。

Content generated by AI large model, please carefully verify (powered by aily)

References

在深入了解了AI的运作原理，并盘了众多当前市面上AI的落地产品之后，我们不妨重新回到最开始的问题。此次AI大模型究竟引发了怎样的变革？在思考这个问题之前，我想先分享下去年刚接触大模型时，困扰我的一个问题。即大模型与当下的智能语音技能的NLU存在什么差异？此前，我也曾涉足过一些语音产品的设计逻辑，知道语音技能链路其实就是把声音转为ASR，再对文本进行NLU理解，然后映射到对应的语音技能表中，最后让程序依据相应的语音技能指令完成逻辑。乍看起来，大模型能实现的，通过语音技能似乎也能达成，那我们引入大模型的意义在哪里呢？抱着这样的疑问，我尝试去理解了大模型的原理。当我在初步理解大模型的原理之后，我发现二者还是存在本质性的差别的。差别在于，后者的语音技能NLU仅是通过一系列规则、分词策略等训练而成的产物。而且NLU的运作逻辑规律都是可观测的，具有if-else式的逻辑性。而大模型，则是凭借海量的数据，在向量空间中学习知识的关联性从而形成的，其运作逻辑难以观测，已然脱离了if-else的层面。

大模型入门指南

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）

从原理到应用一次讲清楚 Prompt

[title]从原理到应用一次讲清楚 Prompt[heading1] 2、用更加专业的方式定义 [content]Prompt大模型的本质是一个基于语言的概率模型，他返回他觉得概率最大的内容。如果是直接问大模型，没有提供Prompt，相当于大模型随机给出他的答案。有了Prompt，其实是给了一个模板，这个模板包括了对于模型的要求，输入和输出的限制，大模型在这个限制之下，去得到概率最大的答案。