Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

AI 衡量一个AI任务的指标是不是有准确率 和召回率 分别啥区别

Answer

在 AI 任务中,常见的衡量指标包括准确率和召回率。准确率(Accuracy)衡量的是模型预测正确的比例。而召回率主要用于信息检索等任务,衡量的是模型能够正确检索出相关内容的比例。

在摘要任务中,一般用 ROUGE 指标,其中 ROUGE-2 是把两个 sequence 按 2-gram 的方式做切分做频次统计,然后计算 pred 和 gt 之间的召回率。

对于不同的 AI 任务,还有其他多种指标,如在 NLP 中:

  • 信息检索任务常用 NDCG@K 指标,核心衡量最相关文档是否排序足够靠前。
  • 文本生成任务可用 Bits-per-Byte 指标。

针对二分类任务,一般用 ECE 指标(Expected Calibration Error)来度量模型输出概率 p 时,最终正确率真的为 p 的一致性。

此外,还有一些其他方面的评估指标,如不确定性(Calibration and Uncertainty)、鲁棒性(Robustness,包括 invariance 和 equivariance)、公平性(Fairness)、偏见程度(Bias and stereotypes)、有毒性(Toxicity)等。

传统的 RAG 解决方案在检索效率和准确性上存在问题,Anthropic 通过“上下文嵌入”解决了部分问题,但 RAG 的评估仍待解决,研究人员正在探索新的方法,如 Ragnarök。

在提示词设计方面,Claude 官方手册提出“链式提示”的方法理念,将复杂任务拆解为多个步骤,具有准确率高、清晰性好、可追溯性强等好处。ChatGPT 官方手册也有类似理念,同时还有相关论文如在 ICLR 2023 上发表的提出 Least-to-Most Prompting 提示词策略的论文,在文本理解和生成场景中表现优秀。

Content generated by AI large model, please carefully verify (powered by aily)

References

(2)初探LLM基座模型

从上一篇可以知道,entropy-like指标(如cross-entropy指标)常常运用在训练过程中,表征模型的收敛情况,同时也可以用于测试集的简单评估(如Perplexity指标等)。但对于丰富复杂的下游应用来说,这几个指标远远不能满足需求。如果想从第一性原理出发推导出所有指标,这并不现实。下面参考HELM论文的中内容,简单列举了NLP中的指标,大家不必深究,有个简单印象即可。正确性Accuracy。信息检索任务。NDCG@K指标,核心衡量最相关文档是否排序足够靠前的指标。摘要任务。一般用ROUGE指标,ROUGE是个指标体系,有4个大类,其中最简单的为2-gram的方式,即ROUGE-2。就是把两个sequence按2-gram的方式做切分做频次统计,然后计算pred和gt之间的召回率文本生成任务。Bits-per-Byte,类似于Perplexity指标不确定性Calibration and Uncertainty。针对二分类任务,一般用ECE指标(Expected Calibration Error)。核心是度量模型输出概率p的时候,最终正确率真的为p的一致性。鲁棒性Robustness。分为两种invariance。加入不改变语义的噪声,如果大小写变换,加入错别字typo等equivariance。利用contrast set,做语义改变,例如修改关键单词和短语把一个正面的评论改成负面的评论公平性Fairness。看模型输出是否公平,例如把性别和人种等换一下,看输出是否有变化偏见程度Bias and stereotypes。看模型有没有偏见和刻板的印象,例如看模型对亚洲人是否存在“学习好并且会谈钢琴”的偏见有毒性Toxicity。看模型输出是否有毒。

2024人工智能报告|一文迅速了解今年的AI界都发生了什么?

传统的RAG解决方案通常会以滑动窗口的方式,每次创建256个令牌的文本片段。这使得检索更加高效,但准确性明显降低。Anthropic通过“上下文嵌入”解决了这个问题,其中提示语指示模型生成解释文档中每个段落上下文的文本。他们发现,这种方法导致前20个检索失败率的减少为35%(5.7%→3.7%)。**但RAG的评估仍待解决,**研究人员正在探索新的方法,例如Ragnarök,它通过比较一对系统,引入了一个基于网络的人类评估竞技场。这解决了评估RAG质量的挑战,超越了传统的自动化指标;同时Researchy Questions提供了大量复杂、多方面的需要深入研究和分析才能回答的问题,这些问题是来自真实用户的查询。

一泽 Eze:样例驱动的渐进式引导法——利用 AI 高效设计提示词 ,生成预期内容

[Chain complex prompts for stronger performance-Anthropic](https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/chain-prompts)Claude官方手册中,提出“链式提示”的方法理念,推荐将复杂的任务拆解为多个步骤,一步步指引AI完成子任务。好处:1.Accuracy:Each subtask gets Claude’s full attention,reducing errors.准确率:每个子任务都能得到Claude的全神贯注,减少错误。2.Clarity:Simpler subtasks mean clearer instructions and outputs.清晰性:更简单的子任务意味着更清晰的指令和输出。3.Traceability:Easily pinpoint and fix issues in your prompt chain.可追溯性:轻松定位和修复提示链中的问题。[Strategy:Split complex tasks into simpler subtasks-Open AI](https://platform.openai.com/docs/guides/prompt-engineering/strategy-split-complex-tasks-into-simpler-subtasks)ChatGPT官方手册中,也提出“将复杂的任务分解成更简单的子任务”的理念。[Least-to-Most Prompting Enables Complex Reasoning in Large Language Models](https://arxiv.org/pdf/2205.10625)如果你恰巧想要更加深入的研究,我推荐你阅读这篇已在ICLR 2023上发表的论文。它提出了Least-to-Most Prompting(LtM-最少到最多提示)提示词策略。LtM同样通过将复杂问题分解成一系列更简单的子问题,然后依次解决这些子问题,从而实现对复杂任务的推理。在文本理解和文本生成场景中,表现出了优秀的效果。

Others are asking
如何让企业微信可以接上 AI?让我的企业微信号变成一个 AI 客服
要让企业微信接上 AI 并变成一个 AI 客服,可以参考以下内容: 1. 基于 COW 框架的 ChatBot 实现方案:这是一个基于大模型搭建的 Chat 机器人框架,可以将多模型塞进微信(包括企业微信)里。张梦飞同学写了更适合小白的使用教程,链接为: 。 可以实现打造属于自己的 ChatBot,包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能,以及常用开源插件的安装应用。 正式开始前需要知道:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项:微信端因为是非常规使用,会有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成的内容注意甄别,确保所有操作均符合相关法律法规的要求,禁止将此操作用于任何非法目的,处理敏感或个人隐私数据时注意脱敏,以防任何可能的滥用或泄露。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等;多模型选择,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等;多消息类型支持,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能;多部署方法,如本地运行、服务器运行、Docker 的方式。 2. DIN 配置:先配置 FastGpt、OneAPI,装上 AI 的大脑后,可体验知识库功能并与 AI 对话。新建应用,在知识库菜单新建知识库,上传文件或写入信息,最后将拥有知识库能力的 AI 助手接入微信。
2025-05-09
围棋AI
围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中,AI 面临着巨大挑战,如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法,利用价值网络评估棋面优劣,策略网络选择最佳落子,且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练,达到蒙特卡洛树搜索水平,并将其与蒙特卡洛树搜索有机结合,取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步,也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外,神经网络在处理未知规则方面具有优势,虽然传统方法在处理象棋问题上可行,但对于围棋则困难重重,而神经网络专门应对此类未知规则情况。关于这部分内容,推荐阅读《这就是 ChatGPT》一书,其作者备受推崇,美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。
2025-05-08
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
学AI上钉钉
以下是在钉钉上学 AI 的相关内容: 从 AI 助教到智慧学伴的应用探索: 登录钉钉客户端,在右上角依次选择钉钉魔法棒、AI 助理、创建 AI 助理。进入创建 AI 助理页面后,填写 AI 助理信息,设置完成即可创建成功。 AI 领导力向阳乔木:未提及具体的在钉钉上学 AI 的操作方法。 基于 COW 框架的 ChatBot 实现步骤: 创建应用: 进入,登录后点击创建应用,填写应用相关信息。 点击添加应用能力,选择“机器人”能力并添加。 配置机器人信息后点击发布,发布后点击“点击调试”,会自动创建测试群聊,可在客户端查看。点击版本管理与发布,创建新版本发布。 项目配置: 点击凭证与基础信息,获取 Client ID 和 Client Secret 两个参数。 参考项目,将相关配置加入项目根目录的 config.json 文件,并设置 channel_type:"dingtalk",注意运行前需安装依赖。 点击事件订阅,点击已完成接入,验证连接通道,会显示连接接入成功。 使用:与机器人私聊或将机器人拉入企业群中均可开启对话。
2025-04-19
AI术语解释
以下是一些常见的 AI 术语解释: Agents(智能体):一个设置了一些目标或任务,可以迭代运行的大型语言模型。与大型语言模型在像 ChatGPT 这样的工具中的通常使用方式不同,Agent 拥有复杂的工作流程,模型本质上可以自我对话,无需人类驱动每一部分的交互。属于技术范畴。 ASI(人工超级智能):尽管存在争议,但通常被定义为超越人类思维能力的人工智能。属于通识范畴。 Attention(注意力):在神经网络的上下文中,有助于模型在生成输出时专注于输入的相关部分。属于技术范畴。 Bias(偏差):AI 模型对数据所做的假设。“偏差方差权衡”是模型对数据的假设与给定不同训练数据的模型预测变化量之间必须实现的平衡。归纳偏差是机器学习算法对数据的基础分布所做的一组假设。属于技术范畴。 Chatbot(聊天机器人):一种计算机程序,旨在通过文本或语音交互模拟人类对话。通常利用自然语言处理技术来理解用户输入并提供相关响应。属于通识范畴。 CLIP(对比语言图像预训练):由 OpenAI 开发的 AI 模型,用于连接图像和文本,使其能够理解和生成图像的描述。属于技术范畴。 TPU(张量处理单元):谷歌开发的一种微处理器,专门用于加速机器学习工作负载。属于技术范畴。 Training Data(训练数据):用于训练机器学习模型的数据集。属于技术范畴。 Transfer Learning(迁移学习):机器学习中的一种方法,其中对新问题使用预先训练的模型。属于技术范畴。 Validation Data(验证集):机器学习中使用的数据集的子集,独立于训练数据集和测试数据集。用于调整模型的超参数(即架构,而不是权重)。属于技术范畴。 Knowledge Distillation(数据蒸馏):数据蒸馏旨在将给定的一个原始的大数据集浓缩并生成一个小型数据集,使得在这一小数据集上训练出的模型,和在原数据集上训练得到的模型表现相似。在深度学习领域中被广泛应用,特别是在模型压缩和模型部署方面。可以帮助将复杂的模型转化为更轻量级的模型,并能够促进模型的迁移学习和模型集成,提高模型的鲁棒性和泛化能力。属于技术范畴。 RAG(检索增强生成):检索增强生成。属于技术范畴。 Forward Propagation(前向传播):在神经网络中,输入数据被馈送到网络并通过每一层(从输入层到隐藏层,最后到输出层)以产生输出的过程。网络对输入应用权重和偏差,并使用激活函数生成最终输出。属于技术范畴。 Foundation Model(基础模型):在广泛数据上训练的大型 AI 模型,旨在适应特定任务。属于技术范畴。 GAN(通用对抗网络):一种机器学习模型,用于生成类似于某些现有数据的新数据。使两个神经网络相互对抗:一个“生成器”,创建新数据,另一个“鉴别器”试图将数据与真实数据区分开来。属于技术范畴。 Generative AI/Gen AI(生成式 AI):AI 的一个分支,专注于创建模型,这些模型可以根据现有数据的模式和示例生成新的原创内容,例如图像、音乐或文本。属于通识范畴。 GPU(图形处理单元):一种特殊类型的微处理器,主要用于快速渲染图像以输出到显示器。在执行训练和运行神经网络所需的计算方面也非常高效。属于产品范畴。
2025-04-18
如何调试智能体回答问题准确率
调试智能体回答问题准确率可以参考以下方法: 1. 从问题场景出发:明确活动为问答对话场景,考验智能体对问题的理解和准确回答能力,真实对话场景中一般以完整句子回复。 2. 具体交流技巧:与大语言模型交流时尽量具体、丰富、少歧义,多说有用的信息。 3. 测试方法:可使用弱智吧问题对 LLM 进行测试,评价提示词的生成效果。 4. 行业案例参考: 服务和业务助手:关注回答准确率、数据覆盖范围,具备丰富的文档/多媒体/数据库支持、多数据源打通、文档 Meta 信息增强、搜索过滤、大模型召回判定等功能。 个人助理:关注回答准确率、业务数据关联性、人设契合度、多模态,通过 Prompt 优化、多模态数据上传、互联网搜索、音频/视频交互等方式提升。 多模态文件交互和数据处理:关注成本、延迟、多场景适配度,可进行自定义文件解析设置、视觉解析增强、企业级数据管理。 例如在服务和业务助手方面,内部业务助手可使用企业内部规章制度等构建知识库进行内部知识问答,通过复杂文档解析视觉增强来提供更好的文档理解。在医疗助手/法律助手/智能导购等场景,构建领域内知识库,结合规则性和智能性进行相似度阈值判定和大模型智能分析,减少数据混淆和模型幻觉问题,但判定速度略慢且有额外大模型调用费用,适合高度定制化和智能化搜索服务场景。
2025-03-08
文生图如何提高字在图中的准确率
要提高文生图中字在图中的准确率,可以从以下几个方面入手: 1. 数据准备: 对于中文文字的生成,Kolors从两个方面准备数据。一是选择 50000 个最常用的汉字,机造生成了一个千万级的中文文字图文对数据集,但机造数据真实性不足。二是使用 OCR 和 MLLM 生成海报、场景文字等真实中文文字数据集,大概有百万量级。 Hugging 和英特尔发布了提高文生图模型空间一致性的方案,包括一个详细标注了空间关系的 600 万张图片的数据集,模型和数据集都会开源。 2. 模型能力: DALLE 3 和 SD3 已经有了很强的英文文字生成能力,但目前还未有模型具有中文文字的生成能力。中文文字的生成存在困难,一是中文汉字的集合大且纹理结构复杂,二是缺少中文文字的图文对数据。 作者观察到,使用机造数据结合高质量真实数据后,中文文字生成能力的真实性大大提升,而且即使是真实数据中不存在的汉字的真实性也得到了提升。 3. 训练方法: 在包含大量物体的图像上进行训练,可以显著提高图像的空间一致性。 此外,在写文生图的提示词时,通常的描述逻辑是这样的:人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)。通过这些详细的提示词,能更精确地控制绘图。对于新手而言,还有一些功能型辅助网站来帮我们书写提示词,比如:http://www.atoolbox.net/ 、https://ai.dawnmark.cn/ 。还可以去 C 站(https://civitai.com/)里面抄作业。但要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会截然不同。
2025-01-29
如何提高RAG应用中的准确率
以下是一些提高 RAG 应用准确率的方法: 1. 基于结构化数据来 RAG: 避免数据向量化和语义搜索的问题,直接利用原始数据和 LLM 的交互,提高准确率。因为结构化数据的特征和属性明确,能用有限标签集描述,可用标准查询语言检索,不会出现信息损失或语义不匹配的情况。 减少 LLM 的幻觉可能性,LLM 只需根据用户问题提取核心信息和条件,并形成标准查询语句,无需理解整个文档语义。 提高效率,省去数据向量化和语义搜索过程,直接使用标准查询和原始数据进行回复,且结构化数据的存储和更新更易更省空间。 增加灵活性,适应不同数据源和查询需求,只要数据是结构化的,就可用此方法进行 RAG。 2. 参考行业最佳实践,如 OpenAI 的案例: 从较低的准确率开始,尝试多种方法,标记哪些被采用到生产中。 通过尝试不同大小块的信息和嵌入不同内容部分,提升准确率。 采用 Reranking 和对不同类别问题特别处理的方法进一步提升。 结合提示工程、查询扩展等方法,最终达到较高的准确率,同时强调模型精调和 RAG 结合使用的潜力。 3. 深入了解 RAG 的基础概念: RAG 由检索器和生成器组成,检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息制作精确连贯的答案,适合处理需要广泛知识的任务,如问答系统,能提供详细准确的回答。
2024-11-08
目前语音转文字的AI工具有哪些,准确率怎样
目前常见的语音转文字的 AI 工具有以下几种: 1. GVoice:中文识别率优秀,少量错误可被 ChatGPT 正常理解和纠错,衔接流畅。 2. Reccloud:免费的在线 AI 字幕生成工具,可直接上传视频进行精准识别,能翻译并生成双语字幕,声称处理了 1.2 亿+视频,识别准确率接近 100%。 3. 绘影字幕:一站式专业视频自动字幕编辑器,支持 95 种语言,准确率高达 98%,可自定义字幕样式。 4. Arctime:能对视频语音自动识别并转换为字幕,支持自动打轴,支持 Windows 和 Linux 等主流平台及 SRT 和 ASS 等字幕功能。 5. 网易见外:国内知名语音平台,支持视频智能字幕功能,转换正确率较高,支持音频转写功能。 6. Ava:为聋人和重听者提供专业和基于 AI 的字幕(转录和说话人识别)。 7. Verbit:专业的基于 AI 的转录和字幕。 8. Otter:混合团队高效协作会议所需的工具。 9. Trint:音频转录软件,从语音到文本到魔法。 10. Rev:99%准确的字幕、转录和字幕服务。 11. Voiceitt:为语音不标准的人群提供的应用程序。 12. Deepgram.com:通过 AI 语音识别实现更快速、更准确的语音应用。 13. Fireflies.ai:会议的 AI 助手。 14. SoapBox:让孩子们的声音被听见的语音技术。 15. Amberscript:使用语音识别自动将音频和视频转换为文本和字幕的 SaaS 解决方案。 16. Speaksee:实时字幕记录面对面小组会议中的发言内容。 17. Speechmatics:理解每个声音的自主语音识别技术。 18. Sonix:支持 35 多种语言的自动转录。 需要注意的是,不同工具在不同场景和语言环境下的准确率可能会有所差异,您可以根据自己的具体需求选择适合的工具。
2024-09-23
请帮我推荐优化大模型+知识库的提示词技巧,重点是解决将知识库配置给大模型做RAG后,召回率不高或者不遵循指令。
以下是关于优化大模型+知识库的提示词技巧,以解决将知识库配置给大模型做 RAG 后召回率不高或者不遵循指令的问题: 首先,了解 LLM 应用性能优化的推荐路径: 1. 从 prompt 工程开始把 LLM 应用快速跑起来。 2. 若遇到表现性能不足等问题,如结构化提示词占用上下文过长,可尝试精简提示词长度;若指令遵循度不足,则加强指令约束。 3. 若提示工程无法满足要求,分析问题,若缺失知识,先简单做知识库 RAG。 4. RAG 之后若想让模型表现更收敛更稳定,尝试微调模型。 5. 微调模型后,若模型表现变好,使用更多高级 RAG 技术,构造输入输出样本,进一步用于微调模型,构建正向迭代循环。 需要注意的是,该路径有个隐藏前提:该 LLM 应用依赖外部知识,需要 RAG。若不需要外部知识,则不需要使用 RAG,可以直接进入 prompt 工程与微调的正向迭代循环。 对于 RAG 流程中的检索有用信息部分,有以下改进策略: 1. 优化索引: 按照子部分索引:将文本块再拆分为较小的文本(例如单句),然后对这些小块进行多次索引。适用于有多个主题、有冲突信息的复杂长文本信息,确保与查询相关的上下文。 按照文本框可以回答的问题索引:让 LLM 生成与拆分的文本块相关的假设性问题,并将这些问题用于索引,适用于用户没有提出非常明确的问题,减少模糊性。 按照文本块的摘要进行索引:适用于文本框中有多余信息或者与用户查询无关细节的情况。 2. 重排 rerank:搜到相似信息后,选择策略,大部分场景下选择最相似的即可。 在从知识库中检索出内容后利用大模型进行总结时,有两点需要注意: 1. 优化 Prompt,但此处不展开,可参考相关文章。 2. 选择合适的大模型,考虑上下文长度、聪明度和生成速度。若回答场景是很长的文档,可能更关注上下文长度;大多数情况下,大模型越聪明,生成速度可能越慢。
2025-03-12
rag的召回策略
RAG(检索增强生成)的召回策略主要包括以下方面: 1. 检索是 RAG 框架的核心组件之一,其质量和效率对系统性能至关重要。 检索策略:需确定何时进行检索及如何选择要检索的信息,可根据任务和上下文调整。 检索粒度:能以不同粒度进行,选择取决于任务要求和数据结构。 检索方法:包括基于关键字、实体检索、自然语言查询和知识图检索等,各有适用情境和优势。 检索效率:在实时应用中,优化检索过程以降低延迟和资源消耗是重要任务。 外部数据源:可从多种外部数据源检索,选择合适的数据源对获取准确丰富信息很关键。 2. 随着 RAG 的发展,出现了自适应的检索(也称作主动检索),其与 LLM Agent 核心思想相似。 RAG 系统可主动判断检索时机和结束流程,输出最终结果。 根据判断依据,可分为 Promptbase 和 Tuningbase 两种方式。 Promptbase 方式通过 Prompt Engineering 让 LLM 控制流程,如 FLARE 案例。 Tuningbase 方式对 LLM 微调使其生成特殊 token 来触发检索或生成,如 SelfRAG 案例。 3. 在 RAG 系统开发中,为解决文档整合限制等问题,可采取以下措施: 调整检索策略:LlamaIndex 提供多种从基础到高级的检索策略,如基础检索、高级检索与搜索、自动检索、知识图谱检索、组合/层级检索等,以适应不同需求和场景,提高检索精确度和有效性。 微调嵌入技术:对开源嵌入模型进行微调是提高检索准确度的有效手段,LlamaIndex 提供了详细的微调指南和示例代码片段。
2025-01-23
精准率和召回率有什么区别
精准率和召回率是常见的评估指标,主要区别如下: 精准率(Precision):指返回的检索内容中有用信息的占比。也就是说,在所有被检索出来的内容中,真正有用的信息所占的比例。其计算公式为:精准率 = 真正例 / (真正例 + 假正例)。 召回率(Recall):指相关信息被正确预测出来的比例,即真正例在所有实际相关信息中的占比。其计算公式为:召回率 = 真正例 / (真正例 + 假反例)。 例如,在一个文档检索的场景中,精准率体现的是检索出的文档中有多少是真正有用的;召回率则体现的是相关的文档有多少被包含在返回的检索结果里。 总的来说,精准率关注的是检索结果的准确性,而召回率关注的是检索结果的完整性。
2025-01-23
在企业中如何衡量大家的AI能力
在企业中衡量员工的 AI 能力可以从以下几个方面入手: 1. 基础 AI 应用能力: 提示词工程:会用合适的方式提问,引导 AI 输出高质量答案。 内容评估能力:能够判断 AI 生成的内容是否靠谱,并加以优化。 熟练使用 AI 工具:能快速上手各类 AI 工具,如 DeepSeek、Cursor、Midjourney 等。 2. 高级 AI 应用能力: 任务拆解能力:知道哪些工作适合用 AI,哪些环节需要人工把控。 业务场景应用能力:能在实际工作中灵活运用 AI,提高效率。 3. 加分项: 快速学习能力:能跟上 AI 技术的快速迭代,主动学习新工具、新方法。 不同领域的考察方式有所不同: 1. 软件开发:让候选人现场用 AI 工具(如 Cursor、Windsurf)解决编程问题,观察其如何向 AI 提问、如何判断 AI 代码的正确性以及如何调整 AI 生成的代码。 2. 市场营销:让候选人用 AI 生成营销文案,并询问为什么用这个 Prompt,观察其是否能调整提示词、判断 AI 生成内容的质量。 3. 产品管理:让候选人用 AI 解析一份用户反馈,提炼产品改进建议,考察其是否能验证 AI 结论的准确性,并提出优化方案。 面试时,可以问以下 AI 相关问题快速判断候选人是否真正懂 AI: 1. “你遇到过 AI 给出明显错误答案的情况吗?你是怎么处理的?” 2. “最近有没有新出的 AI 工具或功能是你学习并实际应用的?能举个例子吗?” 3. “如果 AI 生成的内容和你的预期不符,你会怎么优化它?” 4. “你觉得 AI 目前有哪些无法解决的业务难题?遇到这些问题你会怎么做?” 此外,周鸿祎提到正在做“含 AI 量”的指标,包括公司、部门和员工层面。含 AI 量的评估不仅看硬件投入,更重要的是对 AI 的学习、讨论,现有业务的改造,产品是否用 AI 驱动,员工消耗 Token 的数量,参加 AI 培训课程、订阅 AI 账号等情况。
2025-04-09
AI 算力 衡量
AI 算力的衡量可以从以下几个方面考虑: 1. 神经网络的参数(神经元的数量和连接)规模:人工神经网络与人脑的大小仍有数量级的差距,但在某些哺乳动物面前已具备一定竞争力。 2. 单位计算的成本:我们每花一美元所能得到的计算能力一直在呈指数级增长,现在大规模基础模型所用到的计算量每 3.5 个月就会翻一番。 3. 提升算力的方案: 继续在硅基上发展,如 3D 堆叠形态等,但需要更好的散热。 材料创新,如硅基掺杂、石墨烯片等。 计算原理的创新,如量子计算,但目前距离商用还有不少理论和技术需要突破。 4. 传输速度:高速网络会进一步进化,片间链接、片上内存等技术都会有明显进展。 5. 能耗和散热问题:高温超导技术是解决能耗和散热问题的关键。 此外,对于基础模型的治理,有人认为衡量计算能力可以作为一种潜在工具。但也需要探讨其他更有效的治理方法。
2024-10-12