Chat with Wiki - 大语言模型发展历程

Answer

大语言模型的发展历程如下：

2017 年，发布了《Attention Is All You Need》论文，为后续发展奠定基础。
2018 年，Google 提出 BERT（Bidirectional Encoder Representations from Transformers），其创新性地采用双向预训练并行获取上下文语义信息，以及掩码语言建模（MLM）以更好地推断语义信息，参数规模在 110M 到 340M 之间。
2018 年，OpenAI 提出 GPT（Generative Pre-trained Transformer），开创了仅使用自回归语言建模作为预训练目标而无需额外监督信号的方式，展示了强大的语言生成能力，参数规模达 1750 亿。
2021 年，Meta 提出 Large LAnguage Model Approach（LLAMA），这是首个开源模型，为构建更大规模、更通用的语言模型提供了方法与工具，参数规模在十亿到千亿之间。

此外，OpenAI 的 GPT-3.5 是其大语言模型 GPT 系列中多年来最完善的一次迭代，并通过 ChatGPT 成功推向大众，在短时间内实现了用户的快速增长。

在语言模型的发展中，20 世纪 80 年代发明了递归神经网络（RNN）处理单词序列，但存在训练速度慢和遗忘问题。1997 年发明的长短期记忆（LSTM）网络解决了部分问题，但语言能力有限。

2020 年中期，Lewis 等人提出检索增强生成（RAG），它将外部数据检索整合到生成过程中，提高了模型提供准确和相关回答的能力。RAG 的演进轨迹在四个不同阶段展开，2017 年的创始阶段主要重点是通过预训练模型（PTM）来吸收额外的知识以增强语言模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

这一切的起源是2017年发布的Attention Is All You Need([4])论文，之后基于大量语料的预训练模型百花齐放，比如：BERT(Bidirectional Encoder Representations from Transformers):Google在2018年提出，创新性的双向预训练并行获取上下文语义信息，以及掩码语言建模（MLM）让模型更好地推断语义信息。它开创了预训练语言表示范式，对自然语言处理产生了深远影响。参数规模：110M到340MGPT(Generative Pre-trained Transformer):OpenAI在2018年提出，开创了仅使用自回归语言建模作为预训练目标而无需额外监督信号。它展示了通过无监督大规模预训练获得的语言生成能力,对研究与应用都带来重大影响。参数规模：1750亿Large LAnguage Model Approach（LLAMA）:Meta在2021年提出，首个开源模型。为构建更大规模、更通用的语言模型提供了系统化的方法与工具。参数规模：十亿到千亿

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

[title]智变时代/全面理解机器智能与生成式AI加速的新工业革命[heading1]01模型- AI的群雄逐鹿[heading3]1.2变革的本质OpenAI的一鸣惊人并非凭空而来，GPT-3.5是多年来其大语言模型GPT系列中最完善的一次迭代，并通过ChatGPT这样一款易用的产品，成功的把大语言模型推向了大众，短短两个月就实现了一个亿用户的增长，打破了之前Tiktok所保持的记录。我在《机器之心的进化》中详细介绍过这轮生成式AI变革的来龙去脉，那时ChatGPT还没发布。现在，经历了这一年多的模型争霸赛之后，我们可以从大语言模型（LLM）发展的视角，重温这轮AI革命，来理解其背后的本质。架构与算力由于文本是由长短不一的字母和单词序列组成的，因此语言模型需要一种能够理解这类数据的神经网络。20世纪80年代发明的递归神经网络（RNN）可以处理单词序列，但其训练速度较慢，而且会遗忘序列中的前一个单词。1997年计算机科学家Sepp Hochreiter与Jürgen Schmidhuber发明了长短期记忆（LSTM）网络，解决了这一问题。LSTM也是一种递归神经网络，具有特殊的组件，可以将输入序列中过去的数据保留更长时间，LSTM可以处理几百个单词长度的文本串，但其语言能力有限。配图1.03：语言模型发展史-从Nvidia在2016推出第一台DGX到现在算力提升了1000倍

开发：产品视角的大模型 RAG 应用

[title]开发：产品视角的大模型RAG应用[heading1]测评结论开发：产品视角的大模型RAG应用[heading1]一文看懂RAG：大语言模型落地应用的未来[heading2]RAG发展的四个阶段大型语言模型（LLMs）如GPT系列在自然语言处理方面取得了显著的成功，Super-GLUE等各种基准测试中表现出色。尽管有了这些进展，LLMs仍然存在显著的局限性，特别是在处理特定领域或高度专业化的查询时，一个常见问题是产生错误的信息，或者称为“幻觉”。特别是当查询超出模型的训练数据或需要最新信息时。所以说在直接将LLMs部署运行到生产环境中时，其就是一个黑盒，鬼知道它会输出什么的结果...解决这些问题的一种有希望的方法是检索增强生成（RAG），它将外部数据检索整合到生成过程中，从而提高模型提供准确和相关回答的能力。RAG于2020年中期由Lewis等人提出，是LLMs领域中的一种范式，可增强生成任务。具体而言，RAG包括一个初始的检索步骤，LLMs在此步骤中查询外部数据源以获取相关信息，然后才回答问题或生成文本。这个过程不仅为后续的生成阶段提供信息，还确保回答基于检索到的证据，从而显著提高了输出的准确性和相关性。在推断阶段动态检索来自知识库的信息使RAG能够解决生成事实错误内容的问题，通常被称为“幻觉”。将RAG整合到LLMs中已经迅速被采用，并成为完善聊天机器人能力和使LLMs更适用于实际应用的关键技术。RAG的演进轨迹在四个不同阶段展开，如下图所示。在2017年的创始阶段，与Transformer架构的出现相一致，主要重点是通过预训练模型（PTM）来吸收额外的知识以增强语言模型。这个时代见证了RAG的基础工作主要集中在优化预训练方法上。