Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

基于TTS+LLM流式数字人的问答系统

Answer

以下是关于基于 TTS + LLM 流式数字人的问答系统的相关信息：

数字人简介：算法驱动的数字人强调自驱动，人为干预更少，技术实现更复杂。其最简单的大致流程包含三个核心算法：

ASR（Automatic Speech Recognition，语音识别）：旨在将用户的音频数据转化为文字，便于数字人理解和生成回应，以实现像人与人一样的对话交互。
AI Agent（人工智能体）：充当数字人的大脑，可直接接入大语言模型，强调 Agent 的概念是为了让数字人拥有记忆模块等，使其更加真实。
TTS（Text to Speech，文字转语音）：由于数字人依靠 LLM 生成的输出是文字，为保持语音交互一致性，需要将文字转换为语音由数字人输出。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI 数字人-定义数字世界中的你

这类数字人强调自驱动，人为干预更少，技术实现上更加复杂，一个最简单的算法驱动的数字人大致流程如下：其中三个核心算法分别是：1.ASR(Automatic Speech Recognition，语音识别)：我们希望和数字人的交互跟人一样以对话为主，所以算法驱动的第一步就是语音识别，它能将用户的音频数据转化为文字，便于数字人理解和生成回应。2.AI Agent（人工智能体）：充当数字人的大脑，可以直接接入大语言模型，强调Agent的概念是为了让数字人拥有记忆模块等更加真实。3.TTS(Text to Speech，文字转语音）：数字人依靠LLM生成的输出是文字，为了保持语音交互一致性，需要将文字转换为语音，由数字人。

Others are asking

LLM应用可观测性

LLM 应用的可观测性主要体现在以下方面： LangChain：借助 LangSmith 提供更好的日志、可视化、播放和跟踪功能，以便监控和调试 LLM 应用。LangSmith 是基于 Web 的工具，能查看和分析细化到 class 的输入和输出，还提供跟踪功能，用于记录和展示 LLM 应用的执行过程和状态，以及 LLM 的内部信息和统计数据。 Langfuse：为大模型应用提供开源可观测性和分析功能，在可视化界面中可探索和调试复杂的日志和追踪，并使用直观的仪表板改善成本、降低成本、减少延迟，提高响应质量。此外，微软（中国）的《面向大模型的新编程范式》报告中也强调了在线监控和可观测性的重要性。

LLM模型响应时间较长，如何处理超时时间问题

处理 LLM 模型响应时间过长导致的超时问题，可以考虑以下方法： 1. 参数有效调整：这是一种新颖的微调方法，通过仅训练一部分参数来减轻微调 LLM 的挑战。这些参数可能是现有模型参数的子集，或者是一组全新的参数，例如向模型添加一些额外的层或额外的嵌入到提示中。 2. 优化提示设计：采用合适的提示方法，如零样本提示、一次性提示、Fewshot prompting 等。零样本提示是只给出描述任务的提示；一次性提示是让 LLM 执行任务的单个示例；Fewshot prompting 是让 LLM 执行任务的少量示例。同时，可以使用结构化模式设计提示，包含上下文、问题示例及相应答案等组件，以指示模型应如何响应。 3. 避免频繁调整某些参数：尤其是 Top K 和 Top P，不需要经常对其进行调整。 4. 关注模型响应质量：即使有良好的提示设计，模型输出仍可能不稳定，需要持续关注和优化。 5. 考虑成本和时间：微调大型模型可能耗时且成本高，为大模型提供服务也可能涉及额外麻烦和成本，需要综合评估和优化。

除了LLM，就没有AI模型了吗？

除了 LLM ，还有很多其他类型的 AI 模型。以下为您详细介绍： 1. 生成式 AI：可以生成文本、图片、音频、视频等内容形式。其中生成图像的扩散模型就不是大语言模型。 2. 机器学习：电脑找规律学习，包括监督学习、无监督学习、强化学习。监督学习：有标签的训练数据，算法的目标是学习输入和输出之间的映射关系，包括分类和回归。无监督学习：学习的数据没有标签，算法自主发现规律。经典任务包括聚类，比如拿一堆新闻文章，让模型根据主题或内容特征分成具有相似特征的组。强化学习：从反馈里学习，最大化奖励或最小化损失，类似训小狗。 3. 深度学习：一种参照人脑有神经网络和神经元的方法（因为有很多层所以叫深度）。神经网络可以用于监督学习、无监督学习、强化学习。 4. 谷歌的 BERT 模型：可用于语义理解（不擅长文本生成），如上下文理解、情感分析、文本分类。 2017 年 6 月，谷歌团队发表论文《Attention is All You Need》，首次提出了 Transformer 模型，它完全基于自注意力机制（SelfAttention）来处理序列数据，而不需要依赖于循环神经网络（RNN）或卷积神经网络（CNN）。生成式 AI 生成的内容，叫做 AIGC 。

linux下安装 anythingLLM

以下是在 Linux 下安装 AnythingLLM 的相关指导： 1. 安装地址：https://useanything.com/download 。 2. 安装完成后会进入配置页面，主要分为三步：第一步：选择大模型。第二步：选择文本嵌入模型。第三步：选择向量数据库。 3. AnythingLLM 中有 Workspace 的概念，可以创建自己独有的 Workspace 与其他项目数据进行隔离。首先创建一个工作空间。上传文档并且在工作空间中进行文本嵌入。选择对话模式，提供了 Chat 模式（大模型会根据自己的训练数据和上传的文档数据综合给出答案）和 Query 模式（大模型仅仅会依靠文档中的数据给出答案）。 4. 完成上述配置后，即可与大模型进行对话。此外，在 GitHubDaily 开源项目列表 2023 年复盘的 AIGC 部分中，也有关于 AnythingLLM 的介绍：是一个可打造成企业内部知识库的私人专属 GPT！可以将任何文档、资源或内容转换为大语言模型（LLM）知识库，使得在对话过程中可引用到里面的内容。本文的思路来源于视频号博主黄益贺，作者按照他的视频进行了实操，并附加了一些关于 RAG 的额外知识。

anythingLLM本地部署

以下是关于本地部署大模型以及搭建个人知识库的相关内容：一、引言作者是大圣，一个致力于使用 AI 工具将自己打造为超级个体的程序员，目前沉浸于 AI Agent 研究。本文将分享如何部署本地大模型及搭建个人知识库，读完可学习到如何使用 Ollama 一键部署本地大模型、了解 ChatGPT 信息流转、RAG 概念及核心技术、通过 AnythingLLM 搭建本地化数据库等。五、本地知识库进阶如果想要对知识库进行更灵活掌控，需要额外软件 AnythingLLM，它包含所有 Open WebUI 能力，并额外支持选择文本嵌入模型和向量数据库。安装地址：https://useanything.com/download 。安装完成后进入配置页面，主要分为三步： 1. 第一步：选择大模型。 2. 第二步：选择文本嵌入模型。 3. 第三步：选择向量数据库。构建本地知识库： AnythingLLM 中有 Workspace 概念，可创建独有 Workspace 与其他项目数据隔离。 1. 首先创建一个工作空间。 2. 上传文档并在工作空间中进行文本嵌入。 3. 选择对话模式，提供 Chat 模式（大模型根据训练数据和上传文档综合给出答案）和 Query 模式（大模型仅依靠文档数据给出答案）。配置完成后可进行测试对话。六、写在最后作者推崇“看十遍不如实操一遍，实操十遍不如分享一遍”。如果对 AI Agent 技术感兴趣，可联系作者或加其免费知识星球（备注 AGI 知识库）。本文思路来源于视频号博主黄益贺，作者按照其视频进行实操并附加了一些关于 RAG 的额外知识。

LLM（大语言模型）的工作原理如下：以“我今天吃了狮子头和蔬菜”这句话为例，在 Transformer 中，会由 Attention 层对其加入更多信息补充，如“狮子头是一道菜”“今天是星期六”等，这些补充信息作为输入给到下一个 Attention 层，层与层之间，哪些信息补充、保留、传递，由模型自主学习，最终模型把海量数据以关系网形式“消化”并保留重要相关性。形象地说，就像人阅读文章时的连贯性注意力过程，在阅读理解时，脑子里会消化吸收记忆，记忆的不是点状知识，而是网状经验。大模型以词向量和 Transformer 模型学习海量知识，把知识作为向量空间中的关系网存储，接受输入时通过向量空间中的匹配进行输出。观察大模型回复，是一个字一个字流式输出的，因为大模型确实在一个字一个字地推理生成内容。比如输入法输入联想，根据输入的单个字推测下一个字，加入上下文能帮助模型理解下一个字。但存在两个问题：一是全量数据计算算力吃不消，二是仅算字的概率易被不相干信息干扰，此时词向量机制和 Transformer 模型中的 Attention 自注意力机制解决了难题。另外，RAG 对大语言模型的作用就像开卷考试对学生，事实性知识与 LLM 的推理能力相分离，被存储在容易访问和及时更新的外部知识源中，分为参数化知识（模型训练中学习得到，隐式储存在神经网络权重中）和非参数化知识（存储在外部知识源，如向量数据库中）。

语音合成（Text to Speech，TTS）是指将文本通过一系列的信号处理转换成“人造”语音。技术原理： 1. 文本与韵律分析：先将文本分词，标明每个字的发音以及重音、停顿等韵律信息，然后提取文本的特征，生成特征向量。 2. 声学处理：通过声学模型将文本特征向量映射到声学特征向量。 3. 声音合成：使用声码器将声学特征向量通过反变换生成声音波形，然后依次拼接得到整个文本的合成语音。在反变换过程中，可以调整参数，从而改变合成语音的音色、语调、语速等。参考资料：出门问问的语音合成（TTS）API：接口描述：接口请求域名：https://open.mobvoi.com/api/tts/v1 接口请求频率限制：5 次/秒可以将任意文本转化为语音，应用场景包括视频 APP 配音解说、小说 App 有声阅读、移动 App 语音播报新闻、智能设备语音提醒、车载导航语音合成的个性化语音播报等。提供了普通话、台湾腔、粤语、四川话、东北话等多种方言，数百个发音人，上千种风格。请求参数： HTTP Method：支持 POST 请求调用参数及说明：字段名：text，必填，类型为 String，要合成的文本内容，限制为 1000 字符。支持 ssml 标记语言，使用说明见附录 3。字段名：appkey，必填，类型为 String，开发者在 AI 开放平台上申请的 appkey。字段名：signature，必填，类型为 String，签名，通过“appkey+secret+timestamp”进行 md5 加密，得到的 32 位 MD5 值。每次请求实时计算签名，签名有效期为 10 分钟。字段名：timestamp，必填，类型为 Long，当前时间戳，单位为秒。字段名：speaker，否，类型为 String，合成音频指定发音人，默认值：cissy_meet，其他发音人传值及计费价格请参考声音商店。字段名：audio_type，否，类型为 String，合成音频的格式，默认值：mp3，可选值：pcm/mp3/speexwb10/wav，只支持这四种格式中的一种。字段名：speed，否，类型为 Float，发音人合成的语速，支持小数点后两位，默认值：1.0，可选值：0.5 2.0。 Request Header 设置

TTS的最佳解决方案

以下是关于 TTS 的一些最佳解决方案：在线 TTS 工具推荐： Eleven Labs：https://elevenlabs.io/ ，是一款功能强大且多功能的 AI 语音软件，能高保真地呈现人类语调和语调变化，并能根据上下文调整表达方式。 Speechify：https://speechify.com/ ，是一款人工智能驱动的文本转语音工具，可作为多种平台的应用使用，用于收听网页、文档、PDF 和有声读物。 Azure AI Speech Studio：https://speech.microsoft.com/portal ，提供了支持 100 多种语言和方言的语音转文本和文本转语音功能，还提供了自定义的语音模型。 Voicemaker：https://voicemaker.in/ ，可将文本转换为各种区域语言的语音，并允许创建自定义语音模型。 TTS 音库制作和文本前端：录音文本收集：在一个语种的语音合成建设之初，可同步收集该语种对应的大文本。录音文本的选择一般遵循以下原则：音素覆盖：构建基础的文本前端，确保录音文本的音素或音素组合尽可能覆盖全。场景定制：根据通用或特定场景需求，确保相关内容有所覆盖，并与需求方紧密沟通。文本正确性：确保录音文本拼写无误，内容正确。照片数字人工作流及语音合成（TTS）API 出门问问 Mobvoi：接口请求域名：https://open.mobvoi.com/api/tts/v1 。接口请求频率限制：5 次/秒。可以将任意文本转化为语音，应用场景广泛，提供多种方言、发音人和风格，实时合成支持 SSML。请注意，以上内容由 AI 大模型生成，请仔细甄别。

ChatTTS 是一个用于对话的生成式语音合成模型，具有以下特点：优势：真实度和自然度惊艳。有更好的韵律，能生成接近真人音色的语气语调。对中文支持良好，中英混合也没问题。可进行细粒度控制，能预测和控制如笑声、停顿和插话等韵律特征。能自然流畅地语音合成，支持多说话人，同时提供预训练模型。劣势：推理速度慢，无法应用在实时语音场景，离线场景需大量后期修正工作。对于阿拉伯数字、标点符号，refine 后效果不佳。有时会出现不稳定情况，自动删除或增加一些内容，读绕口令时有卡顿。在参数设置方面，常调整的参数主要是 Seed（种子数），不同的 Seed 对应不同的声音，目前较火的 Seed 为 2222。此外，输入文本时，除文字本身和控制符号外，还可控制笑声、停顿等副语言现象。在使用时，对于 30 秒的音频，需要 4G 的显存。整合包增加了音质增强、批量处理、长文本切分等功能，Mac 版本默认绑定 8080 窗口，推出应用后需执行“lsof i:8080”得到程序的 PID 后 kill 程序，不然下一次启动会提示端口被占用。在输入文本准备生成时，可勾选音频增强和降噪进行进一步处理，增强后的音频会更清晰但处理时长会增加。生成的语音已达到“以假乱真”的程度，但为防止模型被用于诈骗等违法行为，作者在训练过程中添加了少量高频噪音，并压缩了音质。

目前最好的TTS是什么

目前，ChatTTS 是备受关注的 TTS 之一。其优势包括：真实度和自然度很惊艳。有更好的韵律，能生成接近真人音色的语气语调，对中文支持良好，中英混合也没问题。能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等。自然流畅的语音合成，同时支持多说话人，还提供预训练模型。然而，它也存在一些劣势：当前推理速度慢，无法应用在实时语音场景。用在离线场景，需要大量的后期修正工作。对于阿拉伯数字、标点符号，refine 后效果不太好。有时候会出现不稳定，自动删除或者增加一些内容在句子里，比如输入的内容是“你吃饭了没”，会莫名把句子改写一下变成了，“好吃，你吃饭了没”这种情况。读绕口令也有人的那种卡顿（效果不稳定）。另外，XiaoHu.AI 也表现出色，支持跨语言配音、语音克隆、情感控制等，表现优于现有 TTS 系统，提供对语音生成的多样性和情感控制，并允许局部编辑，实时可控编辑，支持对特定语音片段进行修改或替换。您可以通过以下链接获取更多信息：更多案例： GitHub：论文：在线体验：官方网站： PersonaTalk 也是字节跳动的 AI 配音模型。

主流TTS-语音合成技术

语音合成（Speech Synthesis）是将文本转换为可听的声音信息，赋予了像人一样说话的能力，是人机交互的重要接口。一般而言，语音合成的概念比文语转换（TexttoSpeech，TTS）涵盖范围更广，包括 TTS、歌唱合成等领域，但多数情况下可混用。提供了一些端到端语音合成模型的样例，可感受目前语音合成的发展。人类通过一整套发音器官合成语音，肺相当于动力源，喉相当于调制器，声道相当于滤波器，口唇相当于扩音器。研究人员提出以源滤波器（sourcefilter）模型为代表的多种模型建模该过程，语音中有清音和浊音，分别由声带周期性振动对应的周期声源和声带不振动时紊乱气流对应的非周期声源产生。当代工业界主流语音合成系统包含文本前端和声学后端两部分。文本前端将输入文本转换为层次化的语音学表征，主要有文本规范化、韵律分析和文本转音素等模块。声学后端基于文本前端给出的层次化语言学表征生成语音，主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法，当代主要采用端到端声学后端。端到端声学后端通常包括声学模型和声码器两部分，也出现了直接从音素映射为波形的完全端到端语音合成系统。声学模型负责将语言学特征转换为中间声学特征（如梅尔频谱），直接决定合成语音的韵律；声码器将中间声学特征转换为语音波形，直接决定合成语音的音质。

主流TTS-语音合成技术

语音合成（Speech Synthesis）是将文本转换为可听的声音信息，赋予了像人一样说话的能力，是人机交互的重要接口。一般而言，语音合成的概念比文语转换（TexttoSpeech，TTS）涵盖范围更广，包括 TTS、歌唱合成等领域，但多数情况下可混用。提供了一些端到端语音合成模型的样例，可感受目前语音合成的发展。人类通过一整套发音器官合成语音，肺相当于动力源，喉相当于调制器，声道相当于滤波器，口唇相当于扩音器。研究人员提出以源滤波器（sourcefilter）模型为代表的多种模型建模该过程，语音中有清音和浊音，分别由声带周期性振动对应的周期声源和声带不振动时紊乱气流对应的非周期声源产生。当代工业界主流语音合成系统包含文本前端和声学后端两部分。文本前端把输入文本转换为层次化的语音学表征，主要有文本规范化、韵律分析和文本转音素等模块。声学后端基于文本前端给出的层次化语言学表征（linguistics feature）生成语音，主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法，当代主要采用端到端声学后端。端到端声学后端通常包括声学模型和声码器两部分，也出现了直接从音素映射为波形的完全端到端语音合成系统。声学模型负责将语言学特征转换为中间声学特征（如梅尔频谱），直接决定合成语音的韵律；声码器将中间声学特征转换为语音波形，直接决定合成语音的音质。

coze的api流式输出的python代码怎么写

以下是关于 Coze 的 API 流式输出的 Python 代码编写的大致步骤： 1. 创建一个插件：填入插件名和插件描述。选择创建方式为云侧插件。 IDE 运行时选择 Python。点击【在 IDE 中创建工具】。在创建工具面板里：填入工具名称。填入工具介绍。 2. API 接入：前往 https://docs.glif.app/api/gettingstarted 。去创建一个新的 Token 并复制备用。将自己发布的 glif 链接上的 id 复制备用。 3. 在 Coze 的 IDE 中：引入依赖包【requests】。编写 handler 方法。代码中对应的数据字段在元数据 Tab 中设置：填写入参字段和描述，对完整链接要写清楚。填写出参字段。 4. 填入测试数据运行，测试通过后即可发布。 5. 创建一个 Bot，挂载新创建的插件。在 Prompt 中做一些对入参的校验和约束。 6. 最后，测试从 Coze 调用 Glif 功能跑通，发布 Coze 即可。另外，在配置输出节点时： 1. 选择回答模式为“使用设定的内容直接回答”。 2. 由于最终输出结果的呈现是在外层 bot 中，以对话的形式给出，“流式输出”能够像码字一样，逐步展示内容，有更好的使用体验。 3. 整理回答中需要使用的变量，在「输出变量」区域中全部引用。 4. 根据最终输出预期，按照 Markdown 格式的写法，引用「输出变量」区域的参数名，在「回答内容」中输入回答内容模板。

想创建一个对话问答形式的课程智能体

以下是创建一个对话问答形式的课程智能体的相关内容：一、创建智能体 1. 知识库手动清洗数据：本次创建知识库使用手动清洗数据，上节课程是自动清洗数据，自动清洗数据可能会出现数据不准的情况。在线知识库：点击创建知识库，创建一个画小二课程的 FAQ 知识库。飞书在线文档中每个问题和答案以分割，选择飞书文档、自定义的自定义，输入后可编辑修改和删除，添加 Bot 后可在调试区测试效果。本地文档：本地 word 文件，注意拆分内容以提高训练数据准确度。画小二 80 节课程分为 11 个章节，不能一股脑全部放进去训练，应先将 11 章的大章节名称内容放进来，章节内详细内容按固定方式人工标注和处理，然后选择创建知识库自定义清洗数据。 2. 发布应用：点击发布，确保在 Bot 商店中能够搜到，否则获取不到 API。二、智谱 BigModel 共学营活动分享活动内容包括使用 BigModel 搭建智能体并接入微信机器人，过程为将调试好的智能体机器人拉入微信群，由老师提问，机器人回答，挑选出色回答整理成问卷，群成员投票，根据得票数确定奖项。一等奖得主分享了对活动的理解和实践，包括从题出发的分析，认为考验机器人对问题的理解和回答准确性，真实对话场景一般为完整句子回复，根据回答真实性和有趣程度评分，可使用弱智吧问题测试提示词生成效果。三、名字写对联教学——优秀创作者奖，百宝箱智能体 1. 智能体类型的选择：建议选择工作流的对话模式，支持工作流编排和携带历史对话记录，创建后切换为对话模式，注意在调整工作流节点前切换，否则会清空重置。 2. 确认分支情况：根据需求分析有两个特定分支（根据名字和祝福写对联、根据幸运数字写对联）和一个默认分支。 3. 用户意图识别：通过理解用户意图走不同分支，注意将意图介绍写清楚准确。 4. 幸运数字分支：用代码分支获取用户输入数字，匹配知识库并做赏析，代码中有容错机制。 5. 名字写祝福：根据用户输入的名字和祝福信息，提示词生成对应对联并输出，主要是提示词调试。 6. 通用兜底回复：在用户不符合前两个意图时进行友好回复，匹配知识库，结合匹配结果、历史记录和当前输入输出符合对话内容的回复。 7. 知识库：使用大模型生成 100 对对联，好看、经典、有意义。

专门解决ai需求的问答

以下是关于专门解决 AI 需求的问答的相关内容：关于我是谁：我是 WaytoAGI 专属问答机器人，基于 Aily 和云雀大模型。Aily 是飞书团队旗下的企业级 AI 应用开发平台，提供简单、安全且高效的环境，帮助企业构建和发布 AI 应用。云雀是字节跳动研发的语言模型，能通过自然语言交互完成互动对话、信息获取、协助创作等任务。使用方法： 1. 在 WaytoAGI 飞书知识库首页找到加入飞书群的链接（最新二维码在知识库首页），加入后直接@机器人。 2. 在 WaytoAGI.com 的网站首页直接输入问题即可得到回答。做问答机器人的原因： 1. 知识库内容庞大，新用户难以快速找到所需内容。 2. 传统搜索基于关键词及相关性，无法准确理解语义。 3. 需要用更先进的 RAG 技术解决。 4. 在群中提供快速检索信息的便捷方式。 AI 商用级问答场景中让回答更准确：要优化幻觉问题和提高准确性，需了解从“问题输入”到“得到回复”的过程，针对每个环节逐个调优。RAG（检索增强生成）由检索器和生成器组成，检索器从外部知识中找到相关信息，生成器利用这些信息制作精确连贯的答案，通过检索模式为大语言模型生成提供更多信息，使答案更符合要求。向量：可把向量想象成空间中的点位，每个词或短语对应一个点，系统通过比较点的距离快速找到语义接近的词语或信息。 Agentic AI 中的问答：对于最简单的常识性问答，可在 CursorChat 中输入问题得到答案，其相对细节的优势是可在同一界面调用 OpenAI、Anthropic 及本机私有 AI 进行问答。此外，Cursor 作为编辑器，可方便收集沉淀问答结果为复用文档，在进行文本相关任务时还有奇妙用法，如翻译中文博客。

数据问答的最佳实践

以下是关于数据问答最佳实践的相关内容： Databricks： Databricks 作为大数据领域的领先服务商，在 RAG 设计上有自身特点和优势。用户输入问题后，从处理好的文本向量索引获取相关信息，结合提示词工程生成回答。上半部分 Unstructured Data pipeline 采用主流 RAG 方法，下半部分 Structured Data Pipeline 是其特征工程处理流程，也是最大特点。Databricks 从专业大数据角度出发，在准确度较高的数据存储中进行额外检索，发挥在 Real Time Data Serving 上的优势。可见其在 GenAI 时代将强大的 Lakehouse 数据处理能力与生成式 AI 技术深度融合，构建一体化解决方案。 OpenAI：从 OpenAI Demo day 的演讲整理所得，在提升 RAG 准确率的成功案例中，OpenAI 团队从 45%的准确率开始，尝试多种方法。包括假设性文档嵌入（HyDE）和精调嵌入等，但效果不理想。通过尝试不同大小块的信息和嵌入不同内容部分，准确率提升到 65%。通过 Reranking 和对不同类别问题特别处理，进一步提升到 85%。最终，结合提示工程、查询扩展等方法，达到 98%的准确率。团队强调模型精调和 RAG 结合使用的强大潜力，仅通过简单的模型精调和提示工程就接近行业领先水平。 Loop：具有环状结构的 RAG Flow 是 Modular RAG 的重要特点，检索和推理步骤相互影响，通常包括一个 Judge 模块控制流程，具体可分为迭代、递归和主动检索三种。迭代检索：对于一些需要大量知识的复杂问题，可采用迭代方式进行 RAG，如 ITERRETGEN。每次迭代利用前一次迭代的模型输出作为特定上下文帮助检索更相关知识，通过预设迭代次数判断终止。递归检索：特点是明显依赖上一步并不断深入检索，通常有判断机制作为出口，需搭配 Query Transformation，每次检索依赖新改写的 Query。典型实现如 ToC，从初始问题通过递归执行 RAC 逐步插入子节点到澄清树中，达到最大数量有效节点或最大深度时结束，然后收集所有有效节点生成全面长文本答案回答初始问题。

如何搭建一个你这样的知识库智能问答机器人，有相关的流程教程吗？

搭建一个知识库智能问答机器人通常包括以下流程： 1. 基于 RAG 机制： RAG 机制全称为“检索增强生成”，是一种结合检索和生成的自然语言处理技术。它先从大型数据集中检索与问题相关的信息，再利用这些信息生成回答。要实现知识库问答功能，需创建包含大量文章和资料的知识库，例如有关 AI 启蒙和信息来源的知识库，并通过手工录入方式上传文章内容。 2. 利用 Coze 搭建：收集知识：确认知识库支持的数据类型，通过企业或个人沉淀的 Word、PDF 等文档、云文档（通过链接访问）、互联网公开内容（可安装 Coze 提供的插件采集）等方式收集。创建知识库。创建数据库用以存储每次的问答。创建工作流：思考整个流程，包括用户输入问题、大模型通过知识库搜索答案、大模型根据知识库内容生成答案、数据库存储用户问题和答案、将答案展示给用户。 Start 节点：每个工作流默认都有的节点，是工作流的开始，可定义输入变量，如 question，由 Bot 从外部获取信息传递过来。知识库节点：输入为用户的查询 Query，输出为从知识库中查询出来的匹配片段。注意查询策略，如混合查询、语义查询、全文索引等概念。变量节点：具有设置变量给 Bot 和从 Bot 中获取变量的能力。编写 Bot 的提示词。预览调试与发布。海外官方文档：https://www.coze.com/docs/zh_cn/knowledge.html 国内官方文档：https://www.coze.cn/docs/guides/use_knowledge

有哪些好用的搭建知识库然后进行问答的 AI 工具？

以下是一些好用的搭建知识库然后进行问答的 AI 工具： 1. DIN：搭建 OneAPI，用于汇聚整合多种大模型接口。搭建 FastGpt，这是一个知识库问答系统，可放入知识文件，并接入大模型作为分析知识库的大脑，它有问答界面。搭建 chatgptonwechat，将知识库问答系统接入微信，但建议先用小号以防封禁风险。 2. Coze：知识库问答是其最基础的功能，利用了大模型的 RAG 机制（检索增强生成）。 RAG 机制先从大型数据集中检索与问题相关的信息，再利用这些信息生成回答。实现知识库问答功能需创建包含大量 AI 相关文章和资料的知识库，通过手工录入上传内容。在设计 Bot 时添加知识库，并设置合适的搜索策略、最大召回数量和最小匹配度，以更好地结合知识库返回的内容进行回答。

有哪些好用的搭建知识库然后进行问答的 AI 工具？

以下是一些好用的搭建知识库然后进行问答的 AI 工具： 1. DIN：搭建步骤：搭建 OneAPI（https://github.com/songquanpeng/oneapi），用于汇聚整合多种大模型接口。搭建 FastGpt（https://fastgpt.in/），这是一个知识库问答系统，将知识文件放入，并接入大模型作为分析知识库的大脑，它有问答界面。搭建 chatgptonwechat（https://github.com/zhayujie/chatgptonwechat），接入微信，配置 FastGpt 把知识库问答系统接入到微信，建议先用小号以防封禁风险。 2. Coze：知识库问答利用了大模型的 RAG 机制，全称为“检索增强生成”（RetrievalAugmented Generation）。 RAG 机制先从大型数据集中检索与问题相关的信息，再使用这些信息生成回答。实现知识库问答功能，需创建包含大量 AI 相关文章和资料的知识库，通过手工录入上传文章内容。在设计 Bot 时，添加知识库，并设置合适的搜索策略、最大召回数量和最小匹配度，以结合知识库返回的内容进行回答。