Chat with Wiki - 什么是AI大模型

Answer

AI 大模型是一个复杂的体系，具有以下特点和组成部分：

整体架构：
- 基础层：为大模型提供硬件支撑和数据支持，例如 A100、数据服务器等。
- 数据层：包括静态的知识库和动态的三方数据集，是企业根据自身特性维护的垂域数据。
- 模型层：包含 LLm（大语言模型，如 GPT，一般使用 transformer 算法实现）或多模态模型（如文生图、图生图等模型，训练数据为图文或声音等多模态数据集）。
- 平台层：如大模型的评测体系或 langchain 平台等，是模型与应用之间的组成部分。
- 表现层：即应用层，是用户实际看到的地方。
运作原理：以 LLm 为例，大模型在回复时是一个字一个字地推理生成内容，类似于输入法的输入联想逻辑。但存在计算量和干扰信息的问题，词向量机制和 transformer 模型中的 attention 自注意力机制解决了这些难题。
带来的变革：大模型与当下智能语音技能的 NLU 存在本质差别。NLU 是通过规则、分词策略等训练而成，运作逻辑可观测，具有 if-else 式逻辑性；大模型凭借海量数据在向量空间中学习知识的关联性，运作逻辑难以观测，脱离了 if-else 层面。此次 AI 变革量级可能与移动互联网同级，甚至可能达到蒸汽机出现的级别。

Content generated by AI large model, please carefully verify (powered by aily)

References

首先为方便大家对大模型有一个整体的认知，我们先从大模型的整体架构着手，来看看大模型的组成是怎么样的。下面是我大致分的个层。从整体分层的角度来看，目前大模型整体架构可以分为以下几层：[heading3]1.基础层：为大模型提供硬件支撑，数据支持等[content]例如A100、数据服务器等等。[heading3]2.数据层[content]这里的数据层指的不是用于基层模型训练的数据基集，而是企业根据自己的特性，维护的垂域数据。分为静态的知识库，和动态的三方数据集[heading3]3.模型层：LLm或多模态模型[content]LLm这个大家应该都知道，large-language-model，也就是大语言模型，例如GPT，一般使用transformer算法来实现。多模态模型即市面上的文生图、图生图等的模型，训练所用的数据与llm不同，用的是图文或声音等多模态的数据集[heading3]4.平台层：模型与应用间的平台部分[content]比如大模型的评测体系，或者langchain平台等，提供模型与应用间的组成部分[heading3]5.表现层：也就是应用层，用户实际看到的地方[content]这个就很好理解了，就不用我多作解释了吧

Ranger：【AI 大模型】非技术背景，一文读懂大模型（长文）

在深入了解了AI的运作原理，并盘了众多当前市面上AI的落地产品之后，我们不妨重新回到最开始的问题。此次AI大模型究竟引发了怎样的变革？在思考这个问题之前，我想先分享下去年刚接触大模型时，困扰我的一个问题。即大模型与当下的智能语音技能的NLU存在什么差异？此前，我也曾涉足过一些语音产品的设计逻辑，知道语音技能链路其实就是把声音转为ASR，再对文本进行NLU理解，然后映射到对应的语音技能表中，最后让程序依据相应的语音技能指令完成逻辑。乍看起来，大模型能实现的，通过语音技能似乎也能达成，那我们引入大模型的意义在哪里呢？抱着这样的疑问，我尝试去理解了大模型的原理。当我在初步理解大模型的原理之后，我发现二者还是存在本质性的差别的。差别在于，后者的语音技能NLU仅是通过一系列规则、分词策略等训练而成的产物。而且NLU的运作逻辑规律都是可观测的，具有if-else式的逻辑性。而大模型，则是凭借海量的数据，在向量空间中学习知识的关联性从而形成的，其运作逻辑难以观测，已然脱离了if-else的层面。所以，我们再度审视这个问题，此次的AI变革到底带来了什么？汪华老师在前不久的分享中，对于此次AI变革的量级提出了观点：他认为这次AI的变革量级，100%能够抵达第一个阶段，即与移动互联网处于同一级别；50%有可能发展至第二个阶段，即与蒸汽机的出现同量级；至于能否到达第三个阶段，即AGI，尚不明确。在这一点上，我的看法与他一致。因为我觉得，AI此次带来的变革，已然脱离了传统互联网基于if-else的最底层逻辑，这几乎等同于重塑了互联网，这不就相当于蒸汽机级别般的变革吗？

Ranger：【AI 大模型】非技术背景，一文读懂大模型（长文）

首先讲一下LLm，即large-language-model，大语言模型的工作原理。我们可以观察LLm大模型比如豆包在回复的时候，是不是一个一个字，行业里称之为流式输出的方式给你呈现内容的。为什么会这样呢？这是因为，大模型确实是在一个字一个字地去推理生成内容的。就好像我们看输入法的输入联想逻辑，输入联想，其实就是根据你输入的单个字，来推测你要输入的下个字是什么。比如我打了一个“输”字，那么我要打的下字就很有可能是“入”，当然这里就会有人问了，我要打的下个字也很有可能是“球”啊。没错，最开始的研究人员确实也识别到了这个问题。那么解法是什么呢？其实很简单，我们把上下文加入到输入里，不就能帮助模型理解下个字该是什么了吗。比如我们输入的是“我想在这个单元格中输”，那这下一个字大概率就是“入”。而我们如果输入的是“这场足球比赛中，输”，那下一个字大概率就是“球”。那么看到这里，善于思考的同学可能会发现这里存在第一，我们知道大模型的学习数据规模往往是海量的，每次的计算如果都带入全量的数据，算力上肯定是吃不消的。第二，仅去算字的概率，似乎也有问题。因为我们用于训练的文章数据等，往往是出于各种场景各种背景写就的。仅去算下个字出现的概率，容易会被各种不相干的信息干扰。是的，研究人员同样也遇到了这两个问题，而这时，两个概念的出现解决了这一难题。一个是词向量机制，一个是transformer模型中的attention自注意力机制。1）词向量机制