创建本地化单机版问答 AI 可以通过以下步骤实现:
1. 基于用户的问题,从向量数据库中检索相关段落,并根据设定的阈值进行过滤,最后让模型参考上下文信息回答用户的问题,从而实现 RAG。
2. 创建网页 UI,通过 gradio 创建,并进行评测。
3. 对于同样的问题和上下文,基于 Qwen7b、Gemma、Mistral、Mixtral 和 GPT4 分别进行多次测试。主要结论(只是针对有限的几次测试,个人主观评判)如下:
GPT4 表现最好,指令遵循能力很强,在回答的时候能附上引用段落编号。
Mixtral 表现第二,但没有在回答的时候附上引用。
Qwen7b 表现第三,也没有在回答的时候附上引用。
Gemma 表现一般,而且回答里面有一些幻觉。
Mistral 表现一般,使用英文回复,不过在回答的时候附上了引用段落编号。
总结:
1. 本文展示了如何使用 Langchain 和 Ollama 技术栈在本地部署一个资讯问答机器人,同时结合 RSSHub 来处理和提供资讯。
2. 上下文数据质量和大模型的性能决定了 RAG 系统性能的上限。
3. RAG 通过结合检索技术和生成模型来提升答案的质量和相关性,可以缓解大模型幻觉、信息滞后的问题,但并不意味着可以消除。
如需获取上述完整代码,关注本公众号,然后发送 fin,即可获取 github 仓库代码链接。
2024-11-28