Chat with Wiki - 幻觉

Answer

幻觉是人工智能领域中大型语言模型（LLM）存在的一个问题，主要表现为以下几个方面：

与内部知识不一致的反应以及分享与既定外部知识不一致的信息，例如产生不正确的概括。
在处理特定领域或高度专业化的查询时，容易出现错误信息，尤其当查询超出模型训练数据或需要最新信息时。
模型本质上是模仿训练数据中的统计模式，而非真正理解或检索知识，导致会编造事实性信息。
模型在训练数据中学习到某些问题通常有确定答案，因此面对未知问题会倾向于编造答案以符合训练风格。

针对幻觉问题，目前有以下一些研究和应对措施：

牛津大学通过生成问题的多个答案，并使用另一个模型分组来衡量 LLM 不确定性。
Google DeepMind 推出 SAFE，将 LLM 响应分解为单个事实、使用搜索引擎验证事实以及对语义相似的陈述进行聚类来评估响应真实性。
OpenAI 推出 CriticGPT 来发现其他 LLM 生成代码中的错误。
Cohere 探索使用 LLM 生成的评论增强 RLHF 的奖励模型。
检索增强生成（RAG）将外部数据检索整合到生成过程中，提高模型提供准确和相关回答的能力，解决生成事实错误内容的问题。
采取缓解幻觉的方法，如知识边界检测、拒绝回答机制、允许模型使用外部工具检索信息等。

Content generated by AI large model, please carefully verify (powered by aily)

References

2024人工智能报告｜一文迅速了解今年的AI界都发生了什么？

LLM存在两个主要的可靠性错误：与其内部知识不一致的反应（幻觉）以及分享与既定的外部知识不一致的信息。牛津大学最近发表的一篇论文重点研究了幻觉的一个分支，即虚构症，其中LLM产生了不正确的概括。他们通过生成一个问题的多个答案，并使用另一个模型根据相似的含义将它们分组来衡量LLM不确定性。各组之间的熵值越高，则表明存在虚构行为。同时，Google DeepMind推出了SAFE，它通过将LLM响应分解为单个事实、使用搜索引擎验证事实以及对语义相似的陈述进行聚类来评估LLM响应的真实性。他们还策划了LongFact，这是一个用于评估38个主题的长篇教员的新基准数据集。LLM生成的批评是否可以提高准确性和一致性？“法学硕士作为评判者”的概念依然存在，各大实验室已将其扩展到简单的产出评估之外。OpenAI推出了CriticGPT，它使用基于大量有缺陷输入数据集进行训练的GPT式LLM来发现其他LLM生成的代码中的错误。它在发现错误方面的表现优于现实承包商公司，并且在63%的时间里，其评论比人类撰写的评论更受欢迎。该系统还能够发现被标记为“完美无缺”的训练数据中的错误。同时，Cohere还探索了使用LLM生成的评论可增强RLHF的奖励模型。他们使用一系列LLM为每个偏好数据对生成逐点评论，旨在让LLM评估提示完成对的有效性。他们发现，在较弱的基础模型中，或在低数据设置中，一个高质量的批评增强偏好对可以抵得上40个标准偏好对。RLHF不会很快消失

开发：产品视角的大模型 RAG 应用

开发：产品视角的大模型RAG应用[heading1]一文看懂RAG：大语言模型落地应用的未来[heading2]RAG发展的四个阶段大型语言模型（LLMs）如GPT系列在自然语言处理方面取得了显著的成功，Super-GLUE等各种基准测试中表现出色。尽管有了这些进展，LLMs仍然存在显著的局限性，特别是在处理特定领域或高度专业化的查询时，一个常见问题是产生错误的信息，或者称为“幻觉”。特别是当查询超出模型的训练数据或需要最新信息时。所以说在直接将LLMs部署运行到生产环境中时，其就是一个黑盒，鬼知道它会输出什么的结果...解决这些问题的一种有希望的方法是检索增强生成（RAG），它将外部数据检索整合到生成过程中，从而提高模型提供准确和相关回答的能力。RAG于2020年中期由Lewis等人提出，是LLMs领域中的一种范式，可增强生成任务。具体而言，RAG包括一个初始的检索步骤，LLMs在此步骤中查询外部数据源以获取相关信息，然后才回答问题或生成文本。这个过程不仅为后续的生成阶段提供信息，还确保回答基于检索到的证据，从而显著提高了输出的准确性和相关性。在推断阶段动态检索来自知识库的信息使RAG能够解决生成事实错误内容的问题，通常被称为“幻觉”。将RAG整合到LLMs中已经迅速被采用，并成为完善聊天机器人能力和使LLMs更适用于实际应用的关键技术。RAG的演进轨迹在四个不同阶段展开，如下图所示。在2017年的创始阶段，与Transformer架构的出现相一致，主要重点是通过预训练模型（PTM）来吸收额外的知识以增强语言模型。这个时代见证了RAG的基础工作主要集中在优化预训练方法上。

AI 大神Karpathy再发LLM入门介绍视频，入门必看！

幻觉(Hallucination)(01:20:32-01:24:45):LLM会产生幻觉，编造事实性信息，因为它们本质上是在模仿训练数据中的统计模式，而不是真正理解或检索知识。知识边界检测(01:25:49-01:26:51):通过提问和评估模型回答的一致性，判断模型是否了解某个事实。拒绝回答机制(01:30:41-01:31:38):对于模型不确定的问题，训练模型学会拒绝回答，或者声明“I don't know”。工具使用(Web Search)(01:31:38-01:35:47):允许模型使用外部工具（如网络搜索）检索信息，从而获取更准确和最新的知识。幻觉的根源(01:22:10-01:24:00):模型在训练数据中学习到“who is X”类型的问题通常有确定的答案，因此即使面对未知问题，也会倾向于编造答案以符合训练数据的风格。缓解幻觉的方法(01:24:45-01:31:38):知识的本质(01:49:42-01:50:33):LLM的知识存储在网络参数中，是对互联网信息的“模糊回忆”，而非精确记忆。这种知识是统计性的、概率性的，而非精确和可靠的。自我认知(Knowledge of Self)(01:41:42-01:45:42):LLM本身没有持久的自我意识，对自身模型的描述（例如“我是OpenAI GPT-3模型”）是基于训练数据的幻觉，而非真实的自我认知。可以通过硬编码或系统消息来引导模型进行自我描述。