Chat with Wiki - AI 衡量一个AI任务的指标是不是有准确率和召回率分别啥区别

Answer

在 AI 任务中，常见的衡量指标包括准确率和召回率。准确率（Accuracy）衡量的是模型预测正确的比例。而召回率主要用于信息检索等任务，衡量的是模型能够正确检索出相关内容的比例。

在摘要任务中，一般用 ROUGE 指标，其中 ROUGE-2 是把两个 sequence 按 2-gram 的方式做切分做频次统计，然后计算 pred 和 gt 之间的召回率。

对于不同的 AI 任务，还有其他多种指标，如在 NLP 中：

信息检索任务常用 NDCG@K 指标，核心衡量最相关文档是否排序足够靠前。
文本生成任务可用 Bits-per-Byte 指标。

针对二分类任务，一般用 ECE 指标（Expected Calibration Error）来度量模型输出概率 p 时，最终正确率真的为 p 的一致性。

此外，还有一些其他方面的评估指标，如不确定性（Calibration and Uncertainty）、鲁棒性（Robustness，包括 invariance 和 equivariance）、公平性（Fairness）、偏见程度（Bias and stereotypes）、有毒性（Toxicity）等。

传统的 RAG 解决方案在检索效率和准确性上存在问题，Anthropic 通过“上下文嵌入”解决了部分问题，但 RAG 的评估仍待解决，研究人员正在探索新的方法，如 Ragnarök。

在提示词设计方面，Claude 官方手册提出“链式提示”的方法理念，将复杂任务拆解为多个步骤，具有准确率高、清晰性好、可追溯性强等好处。ChatGPT 官方手册也有类似理念，同时还有相关论文如在 ICLR 2023 上发表的提出 Least-to-Most Prompting 提示词策略的论文，在文本理解和生成场景中表现优秀。

Content generated by AI large model, please carefully verify (powered by aily)

References

（2）初探LLM基座模型

从上一篇可以知道，entropy-like指标(如cross-entropy指标)常常运用在训练过程中，表征模型的收敛情况，同时也可以用于测试集的简单评估(如Perplexity指标等)。但对于丰富复杂的下游应用来说，这几个指标远远不能满足需求。如果想从第一性原理出发推导出所有指标，这并不现实。下面参考HELM论文的中内容，简单列举了NLP中的指标，大家不必深究，有个简单印象即可。正确性Accuracy。信息检索任务。NDCG@K指标，核心衡量最相关文档是否排序足够靠前的指标。摘要任务。一般用ROUGE指标，ROUGE是个指标体系，有4个大类，其中最简单的为2-gram的方式，即ROUGE-2。就是把两个sequence按2-gram的方式做切分做频次统计，然后计算pred和gt之间的召回率文本生成任务。Bits-per-Byte，类似于Perplexity指标不确定性Calibration and Uncertainty。针对二分类任务，一般用ECE指标(Expected Calibration Error)。核心是度量模型输出概率p的时候，最终正确率真的为p的一致性。鲁棒性Robustness。分为两种invariance。加入不改变语义的噪声，如果大小写变换，加入错别字typo等equivariance。利用contrast set，做语义改变，例如修改关键单词和短语把一个正面的评论改成负面的评论公平性Fairness。看模型输出是否公平，例如把性别和人种等换一下，看输出是否有变化偏见程度Bias and stereotypes。看模型有没有偏见和刻板的印象，例如看模型对亚洲人是否存在“学习好并且会谈钢琴”的偏见有毒性Toxicity。看模型输出是否有毒。

2024人工智能报告｜一文迅速了解今年的AI界都发生了什么？

传统的RAG解决方案通常会以滑动窗口的方式，每次创建256个令牌的文本片段。这使得检索更加高效，但准确性明显降低。Anthropic通过“上下文嵌入”解决了这个问题，其中提示语指示模型生成解释文档中每个段落上下文的文本。他们发现，这种方法导致前20个检索失败率的减少为35%(5.7%→3.7%)。**但RAG的评估仍待解决，**研究人员正在探索新的方法，例如Ragnarök，它通过比较一对系统，引入了一个基于网络的人类评估竞技场。这解决了评估RAG质量的挑战，超越了传统的自动化指标；同时Researchy Questions提供了大量复杂、多方面的需要深入研究和分析才能回答的问题，这些问题是来自真实用户的查询。

一泽 Eze：样例驱动的渐进式引导法——利用 AI 高效设计提示词，生成预期内容

[Chain complex prompts for stronger performance-Anthropic](https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/chain-prompts)Claude官方手册中，提出“链式提示”的方法理念，推荐将复杂的任务拆解为多个步骤，一步步指引AI完成子任务。好处：1.Accuracy:Each subtask gets Claude’s full attention,reducing errors.准确率：每个子任务都能得到Claude的全神贯注，减少错误。2.Clarity:Simpler subtasks mean clearer instructions and outputs.清晰性：更简单的子任务意味着更清晰的指令和输出。3.Traceability:Easily pinpoint and fix issues in your prompt chain.可追溯性：轻松定位和修复提示链中的问题。[Strategy:Split complex tasks into simpler subtasks-Open AI](https://platform.openai.com/docs/guides/prompt-engineering/strategy-split-complex-tasks-into-simpler-subtasks)ChatGPT官方手册中，也提出“将复杂的任务分解成更简单的子任务”的理念。[Least-to-Most Prompting Enables Complex Reasoning in Large Language Models](https://arxiv.org/pdf/2205.10625)如果你恰巧想要更加深入的研究，我推荐你阅读这篇已在ICLR 2023上发表的论文。它提出了Least-to-Most Prompting（LtM-最少到最多提示）提示词策略。LtM同样通过将复杂问题分解成一系列更简单的子问题，然后依次解决这些子问题，从而实现对复杂任务的推理。在文本理解和文本生成场景中，表现出了优秀的效果。

AI 衡量一个AI任务的指标是不是有准确率 和召回率 分别啥区别

Answer

References

AI 衡量一个AI任务的指标是不是有准确率和召回率分别啥区别