幻觉是人工智能领域中大型语言模型(LLM)存在的一个问题,主要表现为以下几个方面:
针对幻觉问题,目前有以下一些研究和应对措施:
LLM存在两个主要的可靠性错误:与其内部知识不一致的反应(幻觉)以及分享与既定的外部知识不一致的信息。牛津大学最近发表的一篇论文重点研究了幻觉的一个分支,即虚构症,其中LLM产生了不正确的概括。他们通过生成一个问题的多个答案,并使用另一个模型根据相似的含义将它们分组来衡量LLM不确定性。各组之间的熵值越高,则表明存在虚构行为。同时,Google DeepMind推出了SAFE,它通过将LLM响应分解为单个事实、使用搜索引擎验证事实以及对语义相似的陈述进行聚类来评估LLM响应的真实性。他们还策划了LongFact,这是一个用于评估38个主题的长篇教员的新基准数据集。LLM生成的批评是否可以提高准确性和一致性?“法学硕士作为评判者”的概念依然存在,各大实验室已将其扩展到简单的产出评估之外。OpenAI推出了CriticGPT,它使用基于大量有缺陷输入数据集进行训练的GPT式LLM来发现其他LLM生成的代码中的错误。它在发现错误方面的表现优于现实承包商公司,并且在63%的时间里,其评论比人类撰写的评论更受欢迎。该系统还能够发现被标记为“完美无缺”的训练数据中的错误。同时,Cohere还探索了使用LLM生成的评论可增强RLHF的奖励模型。他们使用一系列LLM为每个偏好数据对生成逐点评论,旨在让LLM评估提示完成对的有效性。他们发现,在较弱的基础模型中,或在低数据设置中,一个高质量的批评增强偏好对可以抵得上40个标准偏好对。RLHF不会很快消失
开发:产品视角的大模型RAG应用[heading1]一文看懂RAG:大语言模型落地应用的未来[heading2]RAG发展的四个阶段大型语言模型(LLMs)如GPT系列在自然语言处理方面取得了显著的成功,Super-GLUE等各种基准测试中表现出色。尽管有了这些进展,LLMs仍然存在显著的局限性,特别是在处理特定领域或高度专业化的查询时,一个常见问题是产生错误的信息,或者称为“幻觉”。特别是当查询超出模型的训练数据或需要最新信息时。所以说在直接将LLMs部署运行到生产环境中时,其就是一个黑盒,鬼知道它会输出什么的结果...解决这些问题的一种有希望的方法是检索增强生成(RAG),它将外部数据检索整合到生成过程中,从而提高模型提供准确和相关回答的能力。RAG于2020年中期由Lewis等人提出,是LLMs领域中的一种范式,可增强生成任务。具体而言,RAG包括一个初始的检索步骤,LLMs在此步骤中查询外部数据源以获取相关信息,然后才回答问题或生成文本。这个过程不仅为后续的生成阶段提供信息,还确保回答基于检索到的证据,从而显著提高了输出的准确性和相关性。在推断阶段动态检索来自知识库的信息使RAG能够解决生成事实错误内容的问题,通常被称为“幻觉”。将RAG整合到LLMs中已经迅速被采用,并成为完善聊天机器人能力和使LLMs更适用于实际应用的关键技术。RAG的演进轨迹在四个不同阶段展开,如下图所示。在2017年的创始阶段,与Transformer架构的出现相一致,主要重点是通过预训练模型(PTM)来吸收额外的知识以增强语言模型。这个时代见证了RAG的基础工作主要集中在优化预训练方法上。
幻觉(Hallucination)(01:20:32-01:24:45):LLM会产生幻觉,编造事实性信息,因为它们本质上是在模仿训练数据中的统计模式,而不是真正理解或检索知识。知识边界检测(01:25:49-01:26:51):通过提问和评估模型回答的一致性,判断模型是否了解某个事实。拒绝回答机制(01:30:41-01:31:38):对于模型不确定的问题,训练模型学会拒绝回答,或者声明“I don't know”。工具使用(Web Search)(01:31:38-01:35:47):允许模型使用外部工具(如网络搜索)检索信息,从而获取更准确和最新的知识。幻觉的根源(01:22:10-01:24:00):模型在训练数据中学习到“who is X”类型的问题通常有确定的答案,因此即使面对未知问题,也会倾向于编造答案以符合训练数据的风格。缓解幻觉的方法(01:24:45-01:31:38):知识的本质(01:49:42-01:50:33):LLM的知识存储在网络参数中,是对互联网信息的“模糊回忆”,而非精确记忆。这种知识是统计性的、概率性的,而非精确和可靠的。自我认知(Knowledge of Self)(01:41:42-01:45:42):LLM本身没有持久的自我意识,对自身模型的描述(例如“我是OpenAI GPT-3模型”)是基于训练数据的幻觉,而非真实的自我认知。可以通过硬编码或系统消息来引导模型进行自我描述。