与知识库对话 - 现在的大模型应用都没有记忆能力需要在每次调用时输入上下文？

回答

目前的大模型应用本质上通常没有直接的记忆功能。以 ChatGPT 为例，它能理解用户的交流内容并非因为自身具备记忆能力，而是每次将之前的对话内容作为新的输入重新处理。这种记忆功能实际上是通过在别处进行存储来实现的。

对于大模型的工作原理，在回复时是一个字一个字地推理生成内容，会根据输入的上下文来推测下一个字。但大模型的学习数据规模庞大，若每次计算都带入全量数据，算力难以承受，且仅算字的概率容易受不相干信息干扰，词向量机制和 transformer 模型中的 attention 自注意力机制解决了这些难题。

另外，系统的内存是大模型的上下文窗口，如 Google Gemini 1.5 Pro 实验版已将其提升到一千万。但窗口越大推理越慢，且模型可能失焦降低准确度，研发团队需平衡吞吐量、速度和准确度。在模型外，操作系统的其他部件如文件系统能让模型具备无限记忆的能力，而大模型应用领域常用的方法如 RAG 能让模型用自定义数据生成结果，处理无尽的私有数据。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

学习笔记：【这就是 ChatGPT】了解原理让大语言模型 AI 成为你的打工人

我们使用Prompt的目的是为了解决问题。面对复杂问题时，建议将问题拆解，而不是过早地专注于Prompt的优化。这样做容易使我们过分专注于Prompt这一工具本身，从而忽视了问题的本质解决，偏离了核心。随着问题逐步解决，我们可能会意识到，最初对Prompt进行优化的理由实际上可能是错误的。[heading2]3.6、大模型的重点不是记忆也不应该有记忆[content]经过一段时间的使用后，我们可能会对大型模型有一些误解，比如认为它能记住我们之前的交流内容。从模型参数的加载方式就可见，实际上这些模型本质上并没有记忆功能。ChatGPT能理解我们的假象，仅仅是因为它每次将之前的对话内容作为新的输入重新提供给GPT。这种记忆功能并不是由大型模型直接实现的，而是通过在别处进行存储来达成。了解到模型是如何处理前面的Prompt后，我们也会发现它的局限性。我认为，这是因为推理过程本身有其复杂性。如果对话内容过长，可能会影响模型的整体性能。理论上，如果ChatGPT仅被一个人使用，这或许可行，因为用户可以接受较慢的响应速度。解决这个问题的一个简单方法是启动另一个对话框。对于之前的数据，我们没有太多选择，只能进行总结。这个总结可以由我们自己或者GPT来完成。显然，这并非我们期望的结果，因此出现了GPTs的概念。我认为，GPTs的作用在于不断进行总结，以避免上下文超出限制。这就引出了GPTs需要解决的问题，我将在后续讨论。接下来，我会分享我对于神经网络必要性的看法。

Ranger：【AI 大模型】非技术背景，一文读懂大模型（长文）

[title]Ranger：【AI大模型】非技术背景，一文读懂大模型（长文）[heading2]三、理解模型如何运作[heading3]1.LLm工作原理首先讲一下LLm，即large-language-model，大语言模型的工作原理。我们可以观察LLm大模型比如豆包在回复的时候，是不是一个一个字，行业里称之为流式输出的方式给你呈现内容的。为什么会这样呢？这是因为，大模型确实是在一个字一个字地去推理生成内容的。就好像我们看输入法的输入联想逻辑，输入联想，其实就是根据你输入的单个字，来推测你要输入的下个字是什么。比如我打了一个“输”字，那么我要打的下字就很有可能是“入”，当然这里就会有人问了，我要打的下个字也很有可能是“球”啊。没错，最开始的研究人员确实也识别到了这个问题。那么解法是什么呢？其实很简单，我们把上下文加入到输入里，不就能帮助模型理解下个字该是什么了吗。比如我们输入的是“我想在这个单元格中输”，那这下一个字大概率就是“入”。而我们如果输入的是“这场足球比赛中，输”，那下一个字大概率就是“球”。那么看到这里，善于思考的同学可能会发现这里存在第一，我们知道大模型的学习数据规模往往是海量的，每次的计算如果都带入全量的数据，算力上肯定是吃不消的。第二，仅去算字的概率，似乎也有问题。因为我们用于训练的文章数据等，往往是出于各种场景各种背景写就的。仅去算下个字出现的概率，容易会被各种不相干的信息干扰。是的，研究人员同样也遇到了这两个问题，而这时，两个概念的出现解决了这一难题。一个是词向量机制，一个是transformer模型中的attention自注意力机制。1）词向量机制

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

[title]智变时代/全面理解机器智能与生成式AI加速的新工业革命[heading1][heading3]2.2智能OS与代理系统的内存就是LMM的上下文窗口（Context Window），一次推理运算最多能接受的Tokens数量，现在Google Gemini 1.5 Pro实验版已经把这个数字提升到了一千万，一次性输入二十本书和一个小时的电影；当然这里也存在架构的限制，窗口越大推理越慢，同时模型会失焦，降低推理的准确度。但充满挑战也就意味着机会无穷，前沿模型研发团队都力争做到吞吐量、速度还有准确度的最佳平衡。在模型之外，还有操作系统的其它系统部件，例如I/O -用语音、视觉等模态感知；还有文件系统，让模型具备无限记忆的能力，毕竟模型不是数据库，它的内存是辅助计算的。这一年多以来，大模型应用领域最常用的方法就是RAG（R etrieval Augmented Generation），这是一种检索增强生成的方法，让模型用大家自定义的数据生成结果，这样就能处理无尽的私有数据，把模型当成高效的推理机器来使用。配图2.04：Emerging LLM App StackLLM和LMM是构建软件的强大的新工具，Andrej的这个类比，会让大家找到一些熟知的感觉。其实在去年五月a16z整理过一个指南《Emerging Architectures for LLM Applications》，这是一份详细的LLM应用堆栈的参考架构，里面提到了AI初创公司和大科技公司中最常见的系统、工具和设计模式。上文提到的Perplexity就是RAG的最佳应用，还有面向企业知识库的Glean也一样，以及我自己正在做的面向个人知识库的Maimo，其实所有聚焦到客户流程和需求的具体应用，或多或少都搭建在这个技术栈之上。本文不讨论技术实现方法，我将稍纵即逝的概念串接起来，帮大家整理解题思路！智能代理（AI Agent）