与知识库对话 - WayToAGI

直达「通往AGI之路」飞书知识库 →

首页/全部问答

你在设计大模型语音座舱功能，怎么设计上下文多轮对话的场景，比如否定、指代、延展等

在设计大模型语音座舱功能中的上下文多轮对话场景时，对于否定的情况，需要准确识别用户表达的否定意图，并据此调整后续的回应策略。例如，当用户说“不要这样做”，系统要理解并停止当前可能进行的相关操作。指代方面，要能够解析用户话语中的各种指代关系，比如“那个东西”“这个方案”等，通过上下文和语境来明确其具体所指。延展的场景设计则要鼓励用户进一步展开话题，例如当用户提到一个主题后，系统可以通过提问或提供相关信息来引导用户深入阐述，比如“能再多和我讲讲吗？”或者“那您对这方面还有其他的想法吗？”

相似性度量的例子

以下是一些相似性度量的例子：在商业化问答场景中，使用余弦相似性来计算问题向量和各个文档向量之间的相似度，以找出与问题内容最为接近的文档。在评估 GPT4 生成答案的真实性时，使用包括 ROUGE、BLEU 和 BLEURT 等标准相似度度量标准，将生成的回答与提供的参考（「gold」）答案进行比较，若得分高于预先确定的阈值，则认为生成的回答是真实的。

embedding是什么

Embedding 是一种在深度学习和自然语言处理（NLP）中常用的特征工程方法，本质上是将高维度的数据（如单词、短语、句子等）转换为低维度的向量。其主要目的是降低数据的抽象性和复杂性，以便机器学习模型更有效地理解和处理数据，同时帮助模型理解语义关系，如单词之间的相似性、句子的情感等。以下是几个关于 Embedding 的例子： 1. 电影推荐系统：假设存在一个电影推荐系统，用户可给电影打分，目标是预测用户未看过电影的评分。此时，每个用户和电影都可视为独特分类标签，直接处理这些高维度且稀疏的标签较困难。通过为每个用户和电影创建 Embedding（低维度向量），可捕捉用户兴趣和电影特性，进而通过比较 Embedding 来预测评分。 2. 文本分类：在文本分类任务中，Embedding 可将文本转换为适合模型处理的向量形式。此外，在 Stable Diffusion 中，Embedding 相当于提示词打包的功能，能将大量提示词汇总到一个文件里，调用该文件就相当于输入了很多提示词，尤其在负向提示词中，当文本量很大且固定不变时，使用打包好的负向提示词 Embedding 可达到一词顶一百词的效果。 Embedding 是一个浮点数的向量（列表），两个向量之间的距离可度量它们的相关性，小距离表示高相关性，大距离表示低相关性。Embedding 有词、句子、文档、图像等分类。在大模型中，Embedding 具有重要价值，例如从数据集中获取 Embedding 结果并保存为 csv 文件。进阶到企业级应用开发的大模型技术还会涉及利用开源的 Embedding 模型、向量数据库去做检索增强生成（RAG），以及购买 GPU 服务器去基于开源大模型搭建企业级大模型项目。参考链接：OpenAI 官网文档 https://platform.openai.com/docs/introduction

检索是什么

检索是检索增强生成（RAG）框架的核心组件之一，负责从外部数据源或知识库中获取与用户查询相关的信息。其质量和效率对 RAG 系统的性能至关重要，直接影响生成的文本或回答的准确性和相关性。与检索相关的一些关键概念和技术包括： 1. 检索策略：RAG 系统需确定何时进行检索以及如何选择要检索的信息，可根据任务和上下文调整以提高效率和性能。 2. 检索粒度：能以不同粒度进行，如单个标记、实体、更大的文本块或知识图，选择取决于任务要求和数据结构。 3. 检索方法：有多种可选，如基于关键字的检索、实体检索、自然语言查询和知识图检索等，每种方法都有适用情境和优势。 4. 检索效率：高效检索是关键，尤其在实时应用中，需优化检索过程以降低延迟和资源消耗。 5. 外部数据源：RAG 系统可从多种外部数据源检索，包括互联网上的文档、知识库、数据库和 API，选择合适的数据源对获取准确丰富的信息很重要。在 LangChain 应用开发中，检索器是一个能根据文本查询返回相关文档对象的对象，常见实现如向量存储器检索器，它利用向量存储器的相似度搜索功能实现检索。使用 LangChain 构建 RAG 应用的一般流程为：首先加载数据，根据数据源类型选择合适的数据加载器，如网页可使用 WebBaseLoader；然后将文档对象分割成较小的对象，根据文本特点选择合适的文本分割器，如博客文章可用 RecursiveCharacterTextSplitter。

XGB 通常指的是 XGBoost（eXtreme Gradient Boosting），它是一种强大的梯度提升树算法。XGBoost 在处理大规模数据和复杂问题时表现出色，具有高效、准确和灵活等特点，被广泛应用于数据挖掘、机器学习等领域，常用于解决分类和回归问题。

XGB 通常指的是 XGBoost（Extreme Gradient Boosting），它是一种强大的梯度提升树算法。XGBoost 在处理大规模数据和复杂问题时表现出色，具有高效、准确和灵活的特点。它在许多数据科学竞赛和实际应用中被广泛使用，常用于分类、回归等任务。

学习大模型，从哪里开始

学习大模型可以从以下几个方面入手：什么是大模型：通俗来讲，大模型就是输入大量语料，让计算机获得类似人类的“思考”能力，能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”这件事来类比大模型的训练、使用过程： 1. 找学校：训练大模型需要大量的计算，因此 GPU 更合适，只有购买得起大量 GPU 的才有资本训练自己的大模型。 2. 确定教材：大模型需要的数据量特别多，几千亿序列（Token）的输入基本是标配。 3. 找老师：即用合适的算法讲述“书本”中的内容，让大模型能够更好理解 Token 之间的关系。 4. 就业指导：学完知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导。 5. 搬砖：就业指导完成后，就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）。关于 Token：在 LLM 中，Token 被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token 是原始文本数据与 LLM 可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表。数字化的好处是便于计算机处理。为了让计算机理解 Token 之间的联系，还需要把 Token 表示成稠密矩阵向量，这个过程称之为 embedding。常见的算法有基于统计的 Word2Vec、GloVe，基于深度网络的 CNN、RNN/LSTM，基于神经网络的 BERT、Doc2Vec 等。以 Transform 为代表的大模型采用自注意力（Selfattention）机制来学习不同 token 之间的依赖关系，生成高质量 embedding。大模型的整体架构：从整体分层的角度来看，目前大模型整体架构大致可以分为以下几层。

爆款标题分析的AI工具

以下是关于爆款标题分析的 AI 工具的相关内容：使用 AI 辅助拆解爆款标题时，需要先自己跑通相关环节，例如按照特定框架拆解文章。具体步骤为：用电脑微信打开文章并全选复制（若无需分析评论区内容则可不复制），接着打开 Claude3.5（若没有可找助教小詹领取），发送提示词和原文。Claude3.5 输出结果后，不能直接记录，而是要进行“决策”，思考每项分析是否可用，并结合原文查看，因为 AI 有时会出错。另外，让 AI 直接写出爆款标题较难，应将其视为获取标题灵感的工具，效果会更好。

怎么学习ai呢，感觉没有头绪

学习人工智能（AI）可以参考以下步骤： 1. 了解 AI 基本概念：阅读「」部分，熟悉 AI 的术语和基础概念，包括其主要分支（如机器学习、深度学习、自然语言处理等）以及它们之间的联系。浏览入门文章，了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅：在「」中，找到为初学者设计的课程，特别推荐李宏毅老师的课程。通过在线教育平台（如 Coursera、edX、Udacity）上的课程，按照自己的节奏学习，并有机会获得证书。 3. 选择感兴趣的模块深入学习： AI 领域广泛，比如图像、音乐、视频等，可以根据自己的兴趣选择特定的模块进行深入学习。对于中学生学习 AI，有以下建议： 1. 从编程语言入手学习：可以从 Python、JavaScript 等编程语言开始学习，学习编程语法、数据结构、算法等基础知识，为后续的 AI 学习打下基础。 2. 尝试使用 AI 工具和平台：可以使用 ChatGPT、Midjourney 等 AI 生成工具，体验 AI 的应用场景。探索一些面向中学生的 AI 教育平台，如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识：了解 AI 的基本概念、发展历程、主要技术如机器学习、深度学习等。学习 AI 在教育、医疗、金融等领域的应用案例。 4. 参与 AI 相关的实践项目：参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动。尝试利用 AI 技术解决生活中的实际问题，培养动手能力。 5. 关注 AI 发展的前沿动态：关注 AI 领域的权威媒体和学者，了解 AI 技术的最新进展。思考 AI 技术对未来社会的影响，培养对 AI 的思考和判断能力。对于不会代码的朋友，在 20 分钟内上手 Python + AI 可以按照以下任务循序渐进： 1. 完成一个简单程序。 2. 完成一个爬虫应用，抓取公众号文章。 3. 完成一个 AI 应用，为公众号文章生成概述。

python写一个五子棋程序

很抱歉，目前知识库中没有关于使用 Python 编写五子棋程序的具体内容。但编写五子棋程序通常需要以下步骤： 1. 设计游戏界面：可以使用图形库如 Pygame 来创建棋盘和棋子的显示。 2. 定义游戏规则：明确五子棋的胜利条件，如五子连成一线。 3. 处理玩家输入：获取玩家下棋的位置。 4. 实现游戏逻辑：包括判断落子是否合法、更新棋盘状态、判断胜负等。您可以在网上搜索相关的 Python 五子棋程序示例和教程，以获取更详细和具体的代码实现。