以下是一些常见的模型能力测评方法:
1. 从模型角度(generation):
回答真实性:评估模型结果的真实性,减少模型幻觉。
回答相关度:衡量结果与问题的相关性,避免南辕北辙。
2. 从检索角度(retrieval):
召回率(recall):考查相关信息在返回的检索内容中的包含程度,越全越好。
准确率(precision):评估返回的检索内容中有用信息的占比,越多越好。
RAGAS 是一个用于 RAG 评估的知名开源库,您可以通过了解和使用。
RAG 具有一定的优势和局限性:
优势:
能够解决大语言模型技术中输出结果的不可预测性、知识的局限性、幻觉问题、数据安全性等问题。
可以让大模型从权威的、预先确定的知识来源中检索、组织相关信息,更好地控制大模型生成的文本输出,并且用户可以深入了解 LLM 如何生成最终的结果。
可以和微调结合使用。
局限性:
适合打造专才,不适合打造通才,不适合为模型提供通用领域知识。
难以让模型保持稳定的风格或结构输出,降低 token 消耗等,需要使用微调技术解决。
2025-02-07