在与知识库对话中,通常会使用以下语言模型和相关技术:
此外,还有一些相关的概念和技术:
1.问题解析阶段:2.接收并预处理问题,通过嵌入模型(如Word2Vec、GloVe、BERT)将问题文本转化为向量。这一步确保问题向量能有效用于后续检索。3.知识库检索阶段:4.知识库中的文档同样向量化后,比较问题向量与文档向量,选择最相关的信息片段。抽取相关信息传递给下一步骤5.信息整合阶段:6.接收检索到的信息,与上下文构建形成融合、全面的信息文本。整合信息准备进入生成阶段。7.大模型生成回答:整合后的信息被转化为向量并输入到LLM(大语言模型)。模型逐词构建回答,最终输出给用户。四、RAG实例看理论有点懵是吗?为了更理解,我们来一起看看实例。这是调试预览中的对话示例。在回复中,可以看到这里有写11条引用,3条上下文,我们具体来看下,有什么处理。一、知识库检索部分1、把输入的问题,通过Embedding做了向量化2、使用qwen语言模型把问题做了优化、添加了接近的检索词3、知识库向量检索,抽取条件包含相似度0.854、通过检索一共抽取出了11个内容块(chunk)二、大模型对话部分
上方页面左侧画红框的地方,是这个“问答机器人”的配置,右侧是与“机器人”的一轮对话。左侧有三处配置:AI模型提示词知识库。模型、提示词、知识库三者可以想象成:大语言模型:是一个学习过无数本书、拥有无穷智慧的人。他读过无数的书、看过无数的段子,因此对公共知识、学识技能、日常聊天十分擅长。然而,在工作场景下,只会聊天侃大山可不行,你想让他帮你干活。这个时候,就需要“提示词”出场了,提示词:是你告诉这个全知全能的人,他是一个什么样的角色、他要专注于哪些技能,让他能够按照你的想法,变成一个你需要的“员工”。知识库:相当于你给这个“聪明”员工的发放了一本工作手册。即使是看过再多的书、浏览过再多的文字,也不会准确的知道见到老板娘过来吃饭要打三折,张梦飞过去吃饭要打骨折。而知识库,就是把这些内容写在了工作手册上。让这个聪明的员工,见到有人来的时候,就翻一翻手册,然后再做出反应。我的设定:AI模型:这里使用的是阿里千问模型。
|名词|释义|<br>|-|-|<br>|ChatGLM|ChatGLM是一个开源的、支持中英双语的对话语言模型,底座是GLM语言模型。|<br>|Baichuan|Baichuan 2是百川智能推出的新一代开源大语言模型,采用2.6万亿Tokens的高质量语料训练。|<br>|Prompt|一段文本或语句,用于指导机器学习模型生成特定类型、主题或格式的输出。在自然语言处理领域中,Prompt通常由一个问题或任务描述组成,例如“给我写一篇有关人工智能的文章”、“翻译这个英文句子到法语”等等。在图像识别领域中,Prompt则可以是一个图片描述、标签或分类信息。|<br>|langchain|LangChain是一个开源Python库,由Harrison Chase开发,旨在支持使用大型语言模型(LLM)和外部资源(如数据源或语言处理系统)开发应用程序。它提供了标准的接口,与其他工具集成,并为常见应用程序提供端到端链。|<br>|embedding|将任意文本映射到固定维度的向量空间中,相似语义的文本,其向量在空间中的位置会比较接近。在LLM应用中常用于相似性的文本搜索。|