RAGflow 能力拆解:
文档拆分方式:
通用模式:主要参考每个块的 token 数量,同时考虑语意完整性,切分段落点通常在句号或叹号等完整句子结束处。拆分结果和 langchain 的拆分大同小异。
Q&A 问答对:将左边内容加上“问题:”,右边内容加上“回答:”组成一个 block,数据清洗工作量大。
简历:解析容易失败,需要匹配关键词才能解析,建议官方给出简历模板。
手册:一整段文字提取,分割处在页面分页、段落分段处,块大小通常较大。
表格:拆分后每一行被当成一个块,第一行的表头插入到每一块头部。对没有特殊字符的表格信息处理较好,对图片内的公式做了 OCR 检测。
数据清洗:RAGflow 提供分段后的数据处理,可自行添加、修改数据或为数据加标签。测试发现,RAGflow 召回会同时使用向量相似度和关键词相似度并加权得到混合相似度,关键词相似度不仅匹配文本段内容还匹配关键词标签内容,单个实体在关键词中出现即为 100%。但需注意,检索获得的内容块需同时包含“问题信息”和“答案信息”,大模型才能解答。此外,RAGflow 没提供对外接口,做聊天或其他应用时不方便。
大模型 RAG 问答行业最佳案例及微调、推理双阶段实现模式:基于模块化RAG 自定义 RAG Flow
原创作者为刘焕勇,发表于 2024 年 1 月 29 日北京。在上一篇文章中介绍了模块化RAG 的相关工作,本文将从三个方面深入探讨 RAG Flow 的设计思路,分别是典型的 RAG Flow 模式、特定的 RAG 流实现以及最佳的行业案例。在典型的 RAG Flow 模式方面,将介绍 3 种微调阶段模式和 4 种推理阶段模式。
2025-02-26