Chat with Wiki - 如何提高提示词的推理效率

Answer

以下是一些提高提示词推理效率的方法：

运用抽象 prompt：抽象可以理解为概括，从具体事物中提取共同特征，压缩信息，减少上下文，提取话题核心点，避免输入大量无效信息，尤其适用于大段信息需要嵌入和检索时。
采用演绎 prompt：演绎是从已知情况推导出新情况的思维方式，在提问中效果显著，要求大模型具备文章理解和问题处理能力，能推动长对话的多轮交互。
利用反应 prompt：过长的思维链会导致回复缓慢，反应 prompt 能快速和直观地回应输入，适用于需要快速反馈、测评或咨询的情况，迅速响应在表达中发挥关键决策作用。

此外，提示词工程是优化大型语言模型性能的重要任务，目前推理任务对于大语言模型具有挑战性，需要更高级的提示词工程技术。例如，在涉及数学能力的推理任务中已有一些改进，通过示例给模型说明能获得更准确结果，后续章节还会介绍更多常见应用示例及更高级的提示工程概念和技术。

另外，有研究表明提示词工程需要复杂推理来检查模型错误、明确任务等，如“PROMPT ENGINEERING A PROMPT ENGINEER”的研究，介绍并分析了关键组成部分，最终方法在多个数据集和任务中表现出色，展示了其多功能性和出色的编辑、推理能力。

将这些 prompt 融入工作流中，能更高效地训练智能体，改进大语言模型，探索新应用领域，实现低成本、高效能和模型效益最大化。

Content generated by AI large model, please carefully verify (powered by aily)

References

麒鸣: 提升AI的推理能力：统辖，抽象，演绎，反应

抽象可以简单理解为概括，从具体一般事物中提取共同特征。概括，可以压缩信息，减少上下文，取得话题中的核心点，减少话题中的无用信息，提高大模型的表现。凡是大段信息，在需要embeding和RAG时，都应使用抽象prompt，压缩用户信息，尽量避免让用户输入大量的无效信息。[heading1]4.演绎prompt[content]演绎是一种从已知情况中推导出新情况的思维方式。在提问中效果显著，假设问题中已给出A结果，需要通过已知的各个元素推导出B结果。这种类型的prompt同时要求了大模型的文章理解和问题处理能力，且更好的推动了长对话的多轮交互。[heading1]5.反应prompt[content]过长的思维链会导致回复缓慢，因此需要快速反应，反应是对一切输入的快速和直观的回应。它能在不确定的情况下，合适的应对外界刺激。对于那些需要快速反馈、测评或咨询的情况，反应prompt非常有用。迅速响应，是其在表达中发挥关键决策作用的核心原因。写在最后：把这些prompt融入工作流中，我们就可以更高效的训练智能体。通过这种创新的方法，我们不仅可以改进现有的大语言模型，还可以探索出更多新的应用领域，从而将我们的人工智能系统推向一个新的高度。更能突破以往那种单纯依赖算法的方式，实现低成本，高效能，使得模型效益最大化。

提示词示例

目前对于大语言模型来说，推理任务算是最具有挑战性的了。推理任务最让人兴奋的地方就是可以促使各种复杂的应用程序从大语言模型中诞生。目前，涉及数学能力的推理任务已经有了一些改进。对于当前的大型语言模型来说，执行推理任务可能会有一些难度，因此就需要更高级的提示词工程技术。我们会在后面的指南中介绍这些高级技术。现在，我们将介绍几个基本示例来展示算术功能。提示词输出结果来，我们加大难度：提示词输出结果这不对！我们试着用提示词去改进它：提示词输出结果好多了吧？顺便说一句，我试过几次，有时还是会失败。如果你可以用示例给模型说明一下，可能会获得更准确的结果。我们后面还会在本章节中介绍更多常见应用示例。在后面的章节，我们将介绍更高级的提示工程概念和技术，以完成更困难任务。

小七姐：Prompt Engineering a Prompt Engineer 精读翻译

提示词（Prompt）工程是优化大型语言模型（LLM）性能的一个具有挑战性但至关重要的任务。这需要复杂的推理来检查模型的错误，假设当前提示词中缺少或误导了什么，以及清晰地传达任务。尽管最近的研究表明LLM可以被元提示（meta-prompted）来自动进行提示词工程，但由于缺乏足够的引导来激发LLM在元提示中的复杂推理能力，它们的潜力可能尚未被完全挖掘。在这项工作中，我们研究了“PROMPT ENGINEERING A PROMPT ENGINEER”的问题——构建一个更有效地引导LLM自动进行提示词工程的元提示。我们介绍并分析了关键组成部分，如逐步推理模板和上下文规范，这些都有助于提高性能。此外，受到常见优化概念（如批量大小、步长和动量）的启发，我们将它们的口头化对应物引入元提示，并研究它们的效果。我们的最终方法，名为PE2，找到了一个提示词，其在MultiArith数据集上的表现比“让我们一步步思考”高出6.3%，在GSM8K数据集上高出3.1%。为了展示其多功能性，我们将PE2应用于指令归纳基准、一系列反事实任务和一个冗长的现实世界工业提示词中。在这些设置中，PE2表现出色，超过了以前的自动提示词工程基准。此外，我们展示了PE2如何进行有意义和针对性的提示词编辑，修正错误或不完整的提示词，并展现出非凡的反事实推理能力。