Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

幻觉

Answer

幻觉是人工智能领域中大型语言模型(LLM)存在的一个问题,主要表现为以下几个方面:

  1. 与内部知识不一致的反应以及分享与既定外部知识不一致的信息,例如产生不正确的概括。
  2. 在处理特定领域或高度专业化的查询时,容易出现错误信息,尤其当查询超出模型训练数据或需要最新信息时。
  3. 模型本质上是模仿训练数据中的统计模式,而非真正理解或检索知识,导致会编造事实性信息。
  4. 模型在训练数据中学习到某些问题通常有确定答案,因此面对未知问题会倾向于编造答案以符合训练风格。

针对幻觉问题,目前有以下一些研究和应对措施:

  1. 牛津大学通过生成问题的多个答案,并使用另一个模型分组来衡量 LLM 不确定性。
  2. Google DeepMind 推出 SAFE,将 LLM 响应分解为单个事实、使用搜索引擎验证事实以及对语义相似的陈述进行聚类来评估响应真实性。
  3. OpenAI 推出 CriticGPT 来发现其他 LLM 生成代码中的错误。
  4. Cohere 探索使用 LLM 生成的评论增强 RLHF 的奖励模型。
  5. 检索增强生成(RAG)将外部数据检索整合到生成过程中,提高模型提供准确和相关回答的能力,解决生成事实错误内容的问题。
  6. 采取缓解幻觉的方法,如知识边界检测、拒绝回答机制、允许模型使用外部工具检索信息等。
Content generated by AI large model, please carefully verify (powered by aily)

References

2024人工智能报告|一文迅速了解今年的AI界都发生了什么?

LLM存在两个主要的可靠性错误:与其内部知识不一致的反应(幻觉)以及分享与既定的外部知识不一致的信息。牛津大学最近发表的一篇论文重点研究了幻觉的一个分支,即虚构症,其中LLM产生了不正确的概括。他们通过生成一个问题的多个答案,并使用另一个模型根据相似的含义将它们分组来衡量LLM不确定性。各组之间的熵值越高,则表明存在虚构行为。同时,Google DeepMind推出了SAFE,它通过将LLM响应分解为单个事实、使用搜索引擎验证事实以及对语义相似的陈述进行聚类来评估LLM响应的真实性。他们还策划了LongFact,这是一个用于评估38个主题的长篇教员的新基准数据集。LLM生成的批评是否可以提高准确性和一致性?“法学硕士作为评判者”的概念依然存在,各大实验室已将其扩展到简单的产出评估之外。OpenAI推出了CriticGPT,它使用基于大量有缺陷输入数据集进行训练的GPT式LLM来发现其他LLM生成的代码中的错误。它在发现错误方面的表现优于现实承包商公司,并且在63%的时间里,其评论比人类撰写的评论更受欢迎。该系统还能够发现被标记为“完美无缺”的训练数据中的错误。同时,Cohere还探索了使用LLM生成的评论可增强RLHF的奖励模型。他们使用一系列LLM为每个偏好数据对生成逐点评论,旨在让LLM评估提示完成对的有效性。他们发现,在较弱的基础模型中,或在低数据设置中,一个高质量的批评增强偏好对可以抵得上40个标准偏好对。RLHF不会很快消失

开发:产品视角的大模型 RAG 应用

开发:产品视角的大模型RAG应用[heading1]一文看懂RAG:大语言模型落地应用的未来[heading2]RAG发展的四个阶段大型语言模型(LLMs)如GPT系列在自然语言处理方面取得了显著的成功,Super-GLUE等各种基准测试中表现出色。尽管有了这些进展,LLMs仍然存在显著的局限性,特别是在处理特定领域或高度专业化的查询时,一个常见问题是产生错误的信息,或者称为“幻觉”。特别是当查询超出模型的训练数据或需要最新信息时。所以说在直接将LLMs部署运行到生产环境中时,其就是一个黑盒,鬼知道它会输出什么的结果...解决这些问题的一种有希望的方法是检索增强生成(RAG),它将外部数据检索整合到生成过程中,从而提高模型提供准确和相关回答的能力。RAG于2020年中期由Lewis等人提出,是LLMs领域中的一种范式,可增强生成任务。具体而言,RAG包括一个初始的检索步骤,LLMs在此步骤中查询外部数据源以获取相关信息,然后才回答问题或生成文本。这个过程不仅为后续的生成阶段提供信息,还确保回答基于检索到的证据,从而显著提高了输出的准确性和相关性。在推断阶段动态检索来自知识库的信息使RAG能够解决生成事实错误内容的问题,通常被称为“幻觉”。将RAG整合到LLMs中已经迅速被采用,并成为完善聊天机器人能力和使LLMs更适用于实际应用的关键技术。RAG的演进轨迹在四个不同阶段展开,如下图所示。在2017年的创始阶段,与Transformer架构的出现相一致,主要重点是通过预训练模型(PTM)来吸收额外的知识以增强语言模型。这个时代见证了RAG的基础工作主要集中在优化预训练方法上。

AI 大神Karpathy再发LLM入门介绍视频,入门必看!

幻觉(Hallucination)(01:20:32-01:24:45):LLM会产生幻觉,编造事实性信息,因为它们本质上是在模仿训练数据中的统计模式,而不是真正理解或检索知识。知识边界检测(01:25:49-01:26:51):通过提问和评估模型回答的一致性,判断模型是否了解某个事实。拒绝回答机制(01:30:41-01:31:38):对于模型不确定的问题,训练模型学会拒绝回答,或者声明“I don't know”。工具使用(Web Search)(01:31:38-01:35:47):允许模型使用外部工具(如网络搜索)检索信息,从而获取更准确和最新的知识。幻觉的根源(01:22:10-01:24:00):模型在训练数据中学习到“who is X”类型的问题通常有确定的答案,因此即使面对未知问题,也会倾向于编造答案以符合训练数据的风格。缓解幻觉的方法(01:24:45-01:31:38):知识的本质(01:49:42-01:50:33):LLM的知识存储在网络参数中,是对互联网信息的“模糊回忆”,而非精确记忆。这种知识是统计性的、概率性的,而非精确和可靠的。自我认知(Knowledge of Self)(01:41:42-01:45:42):LLM本身没有持久的自我意识,对自身模型的描述(例如“我是OpenAI GPT-3模型”)是基于训练数据的幻觉,而非真实的自我认知。可以通过硬编码或系统消息来引导模型进行自我描述。

Others are asking
AI幻觉是什么?
AI 幻觉是指 AI 系统生成的信息与事实不符或与预期不符的现象。具体表现为: 生成的输出内容看似合理流畅,但实际上与输入信息、上下文环境或客观事实相矛盾,缺乏逻辑或经验支撑。 表现形式多种多样,例如在艺术创作中照片中突然出现第三只手臂。 AI 幻觉存在潜藏的风险: 误导用户,导致用户获取错误信息从而做出错误判断,如医疗 AI 助手给出错误诊断建议可能延误患者治疗。 传播虚假信息,用于制造和传播虚假新闻报道或社交媒体帖子,误导公众,影响社会稳定。 损害 AI 系统的可信度,降低用户对 AI 系统的信任度,阻碍 AI 技术推广和应用。 为了避免 AI 幻觉,需要对其生成的内容进行检查,因为即使是像 GPT4 这样相对扎实的模型或有互联网连接的 Bing 也不能完全消除幻觉。同时要注意人工智能不会真正解释自己,给出的解释可能是编造的,使用时要对其输出负责,防止被不道德地用来操纵或作弊。
2025-03-21
ai幻觉
AI 幻觉是指 AI 在生成内容时出现的错误或与现实世界不符的情况。以下是关于 AI 幻觉的一些重要方面: 在写东西方面: AI 容易“产生幻觉”并生成看似合理但可能完全错误的内容,需要对其生成的所有内容进行检查。 对于要求提供参考、引用、引文和信息(对于未连接到互联网的模型)的情况尤其危险。 AI 不会真正解释自己,对其思考过程的回答可能是完全编造的。 使用 AI 工具的输出需要承担责任。 在艺术创作方面: 许多 AI 工具会出现幻觉,如照片中突然出现第三只手臂,或者处理请求时间长。 对于试图通过内容实现盈利的用户可能更加令人沮丧。 从技术真相与应对策略角度: 本质:AI 幻觉是模型对训练数据中统计模式的过度依赖,导致无法准确理解和生成新情况的信息,从而输出与现实不符的内容,类似于人类认知偏差中大脑为节省认知资源对信息的扭曲。 表现形式:多种多样且难以察觉,如生成不存在的人物、地点、事件,或对已知事实错误描述;类似于人类的确认偏误、可得性偏差、锚定效应等。 产生原因:都与经验和知识有关,人类受个人成长经历、文化背景、知识结构等影响,而 AI 与训练数据质量、模型结构和训练策略有关,若训练数据有偏差或错误,模型会学习并体现在生成内容中。 影响:可能导致错误决策,如人类在生活中做出错误判断和选择,投资者受可得性偏差影响做出错误投资决策;AI 幻觉可能误导用户、传播虚假信息,甚至在医疗诊断等领域引发安全事故。 目前还没有完全消除 AI 幻觉的方法,但可以通过一些措施来降低其影响。
2025-03-19
ai的幻觉问题
AI 的幻觉问题主要体现在以下几个方面: 1. 可能编造不存在的 API 或错误代码,需要人工严格审查。 2. 在处理复杂项目时,难以设计架构和模块化,难以完全掌握项目需求,也难以独立完成编译、部署、调试等复杂任务。 3. 许多 AI 工具在艺术创作中会出现幻觉,例如照片中突然出现第三只手臂,或者处理请求时间过长。 4. 当用户追问时,AI 可能会钻牛角尖,给出越来越离谱的答复,还可能不懂装懂,提供错误知识。 针对模型幻觉问题,一些解决技巧包括: 1. 新建一个会话窗口重新提问。 2. 告诉 AI 忘掉之前的所有内容,重新交流。 3. 让 AI 退一步,重新审视整个结构,从零开始设计。 4. 当 AI 猜测并修改问题时,可提供日志让其依据判断问题所在。
2025-03-19
消除大模型幻觉的方法
以下是关于消除大模型幻觉的方法的相关内容: 大模型出现幻觉的原因及部分解决办法: 1. 原因: 样本存在错误(Imitative Falsehoods),即学习的“教材”中有错误。 2. 解决办法: 上采样(Up Sampling)。 大模型存在的问题: 1. 输出结果具有不可预测性。 2. 静态的训练数据导致知识存在截止日期,无法即时掌握最新信息。 知识的局限性:模型自身的知识源于训练数据,对于实时性、非公开或离线的数据无法获取。 幻觉问题:基于数学概率的文字预测导致会在没有答案的情况下提供虚假信息等。 数据安全性:企业担心数据泄露,不愿将私域数据上传第三方平台训练。 Prompt 可以减少幻觉的原因: Prompt 相当于给大模型提供了一个模板,包括对模型的要求、输入和输出的限制,使大模型在限制下得到概率最大的答案,从而提升返回的准确性。 RAG 是解决大模型问题的有效方案: RAG 可以让大模型从权威的、预先确定的知识来源中检索、组织相关信息,更好地控制大模型生成的文本输出,并且用户可以深入了解 LLM 如何生成最终的结果。RAG 可与微调结合使用,两者并不冲突。但 RAG 不适合教模型理解广泛领域或学习新语言、格式或样式。
2025-03-17
如何避免ai的幻觉
要避免 AI 的幻觉,可以从以下几个方面入手: 1. 提示词工程: 明确要求 AI 引用可靠来源,例如在询问历史事件时要求引用权威的历史文献,询问科学事实时要求引用已发表的科研论文,询问法律条款时要求引用官方的法律文件。 要求 AI 提供详细的推理过程,例如在询问数学公式时要求展示推导过程,询问代码功能时要求逐行解释代码的含义。 明确限制 AI 的生成范围,例如在询问名人名言时指定名人的姓名和相关主题,询问新闻事件时指定事件的时间范围和相关关键词。 2. 数据方面: 数据清洗:利用各种技术手段对 AI 的训练数据进行“清洗”,去除错误信息、补充缺失数据、修正不一致的内容,并尽可能消除数据中的偏见。 数据增强:为 AI 模型提供更多、更丰富的训练数据,例如在训练图像识别模型时,对已有的图像进行旋转、缩放、裁剪等操作,生成更多新的样本,从而提高模型的泛化能力。 3. 从伦理和社会角度: 制定 AI 伦理规范:需要制定明确的 AI 伦理规范,引导 AI 技术的研发和应用,确保 AI 系统符合人类的价值观和道德准则,避免 AI 被用于危害人类利益的行为。 加强 AI 监管:加强对 AI 系统的监管,建立完善的评估机制,及时发现和纠正 AI 系统中的错误和偏差,防止 AI 幻觉造成严重后果。 提升公众的 AI 素养:提升公众的 AI 素养,让人们了解 AI 技术的原理和局限性,理性地看待 AI 幻觉问题,避免被 AI 误导。 需要注意的是,提示词工程只是一种辅助手段,要从根本上解决 AI 幻觉问题,还需要从数据、模型、训练方法等多个方面进行努力。同时,AI 幻觉既有负面影响,也可能带来正面价值,我们既要警惕其风险,也要善于利用其带来的机遇。
2025-03-07
我是经济学研究者,经常写作学术论文,投稿SSCI期刊,大模型幻觉太严重,在辅助文献综述写作方面,基本没有用处。你有好的用于文献综述写作的AI辅助工具吗?
以下是一些可能有助于您在文献综述写作中应对大模型幻觉问题的方法和工具: 1. 对于 ChatGPT ,您可以使用 temporary chat 功能,保证其在没有任何记忆的情况下生成最新鲜的回答。 2. 当发现模型回答不理想时,可以采取以下技巧: 告诉模型忘掉之前的所有内容,重新提问或新建会话窗口。 让模型退一步,重新审视整个结构,从零开始设计。 对于像 Claude 这种会自己猜测的模型,如果不确定,可以给它看日志,让其依据日志判断问题所在。 3. 您可以参考 Hallucination Leaderboard (大语言模型幻觉排行榜),了解不同模型的幻觉情况,该排行榜使用 Vectara 的 Hughes 幻觉评估模型计算各大模型在总结文档时引入幻觉的频率,用于评估 LLM 的事实一致性,并为 RAG 系统提供参考。完整榜单可通过查看。 4. Claude APP 即将添加网页搜索和推理功能,这或许意味着新模型即将发布,预计发布时间在一两周内。
2025-03-06