Chat with Wiki - 与知识库对话使用什么语言模型？

Answer

在与知识库对话中，通常会使用以下语言模型和相关技术：

在一些实例中，会使用诸如 qwen 语言模型来优化问题并添加接近的检索词。
常见的大语言模型如阿里千问模型也可应用于与知识库的交互。
在处理问题时，会通过嵌入模型（如 Word2Vec、GloVe、BERT）将问题文本转化为向量，以用于后续的检索和处理。
像 ChatGLM 是一个开源的、支持中英双语的对话语言模型，底座是 GLM 语言模型；Baichuan 2 是百川智能推出的新一代开源大语言模型，采用 2.6 万亿 Tokens 的高质量语料训练。

此外，还有一些相关的概念和技术：

Prompt 是一段用于指导机器学习模型生成特定输出的文本或语句。
LangChain 是一个开源 Python 库，旨在支持使用大型语言模型和外部资源开发应用程序。
Embedding 是将任意文本映射到固定维度的向量空间中，使相似语义的文本在空间中的向量位置接近，常用于相似性的文本搜索。

Content generated by AI large model, please carefully verify (powered by aily)

References

【AI+知识库】商业化问答场景，让AI回复更准确，一篇专为所有“小白”讲透RAG的实例教程（上篇）

1.问题解析阶段：2.接收并预处理问题，通过嵌入模型（如Word2Vec、GloVe、BERT）将问题文本转化为向量。这一步确保问题向量能有效用于后续检索。3.知识库检索阶段：4.知识库中的文档同样向量化后，比较问题向量与文档向量，选择最相关的信息片段。抽取相关信息传递给下一步骤5.信息整合阶段：6.接收检索到的信息，与上下文构建形成融合、全面的信息文本。整合信息准备进入生成阶段。7.大模型生成回答：整合后的信息被转化为向量并输入到LLM（大语言模型）。模型逐词构建回答，最终输出给用户。四、RAG实例看理论有点懵是吗？为了更理解，我们来一起看看实例。这是调试预览中的对话示例。在回复中，可以看到这里有写11条引用，3条上下文，我们具体来看下，有什么处理。一、知识库检索部分1、把输入的问题，通过Embedding做了向量化2、使用qwen语言模型把问题做了优化、添加了接近的检索词3、知识库向量检索，抽取条件包含相似度0.854、通过检索一共抽取出了11个内容块（chunk）二、大模型对话部分

【AI+知识库】商业化问答场景，让AI回复更准确，一篇专为所有“小白”讲透RAG的实例教程（上篇）

上方页面左侧画红框的地方，是这个“问答机器人”的配置，右侧是与“机器人”的一轮对话。左侧有三处配置：AI模型提示词知识库。模型、提示词、知识库三者可以想象成：大语言模型：是一个学习过无数本书、拥有无穷智慧的人。他读过无数的书、看过无数的段子，因此对公共知识、学识技能、日常聊天十分擅长。然而，在工作场景下，只会聊天侃大山可不行，你想让他帮你干活。这个时候，就需要“提示词”出场了，提示词：是你告诉这个全知全能的人，他是一个什么样的角色、他要专注于哪些技能，让他能够按照你的想法，变成一个你需要的“员工”。知识库：相当于你给这个“聪明”员工的发放了一本工作手册。即使是看过再多的书、浏览过再多的文字，也不会准确的知道见到老板娘过来吃饭要打三折，张梦飞过去吃饭要打骨折。而知识库，就是把这些内容写在了工作手册上。让这个聪明的员工，见到有人来的时候，就翻一翻手册，然后再做出反应。我的设定：AI模型：这里使用的是阿里千问模型。

信鑫：基于大模型 + 知识库的 Code Review 实践