Chat with Wiki - 大模型的架构

Answer

大模型的架构主要包括以下几种：

Encoder-only：通常适用于自然语言理解任务，如分类和情感分析，代表模型是 BERT。
Encoder-decoder：结合了 Transformer 架构的 encoder 和 decoder 来理解和生成内容，用例包括翻译和摘要，代表是谷歌的 T5。
Decoder-only：更擅长自然语言生成任务，众多 AI 助手采用此结构，如 ChatGPT。这些架构均由谷歌 2017 年发布的论文“attention is all you need”中提出的 Transformer 衍生而来，Transformer 包括 Encoder 和 Decoder 两个结构。目前的大型语言模型多为右侧只使用 Decoder 的 Decoder-only 架构。

大模型的特点在于：

预训练数据非常大，往往来自互联网，包括论文、代码、公开网页等，先进的大模型一般用 TB 级别的数据进行预训练。
参数非常多，如 Open 在 2020 年发布的 GPT-3 就已达到 170B 的参数。

此外，运行几百亿个参数的大模型，存算一体的架构是较好的选择，因其避免了数据搬运。当前大模型在通用知识方面表现出色，但对专业领域知识了解有限，将领域知识结合进大模型是阻碍其更大规模应用的关键问题。把大模型和私域知识结合的方法按对模型改造侵入性从左到右分为：重新训练（拿私域数据重新训练大模型）、微调（拿私有数据 fine-tuning 大模型）、RAG（将知识库里的知识搜索送进大模型）、关键词工程（写好提示词）、加长 Context（当 Context 能无限长时，可将私域知识和记忆 prefill 进去）。

Content generated by AI large model, please carefully verify (powered by aily)

References

从 0 到 1 了解大模型安全，看这篇就够了

encoder-only:这些模型通常适用于可以自然语言理解任务，例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的，在transformer中，包括Encoder，Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢？第一，大模型的预训练数据非常大，这些数据往往来自于互联网上，包括论文，代码，以及可进行爬取的公开网页等等，一般来说，现在最先进的大模型一般都是用TB级别的数据进行预训练。第二，参数非常多，Open在2020年发布的GPT-3就已经达到170B的参数

【AI学习笔记】小白如何理解技术原理与建立框架（通俗易懂内容推荐）

2、观点——在端到端算法的时代，不应该继续使用冯诺依曼架构。3、在存算一体（在存储单元里做计算）的芯片之上，一定会诞生一种全新的算法。说明——对比人脑，我们用一碗米饭或者用一顿饭就可以支撑我们半天的工作或者大量的脑力消耗，不需要去花几千度电或者是上大量的能耗才能完成，所以使用存算一体的方式是未来AI硬件下一步的发展趋势。运行一个几百亿个参数的大模型最好的架构一定是存算一体的架构，因为它避免了所有的数据的搬运。4、现在大模型在通用知识方面很强，但对专业领域知识一无所知。怎么把领域知识结合进大模型里面去——这个是阻碍大模型更大规模应用的最关键的问题。5、把大模型和你的私域知识结合的5种方法：按对模型改造侵入性划分，可以从左到右分为：重新训练——微调——RAG——关键词工程1.重新训练（拿私域数据重新训练大模型）2.微调（拿私有数据fine-tuning大模型）3.RAG（将知识库里的知识搜索送进大模型）4.关键词工程（写好提示词）5.加长Context——当Context能无限长的时候，理论上讲可以把关于你的知识和记忆都prefill到Context里边去；

【AI学习笔记】小白如何理解技术原理与建立框架（通俗易懂内容推荐）