与知识库对话 - GPT4自主学习

回答

GPT4 具有一定的自主学习能力：

Ilya Sutskever 在 5 年前分享过名为 Self-play 的概念，即两个 AI 在虚拟环境中相互博弈，通过 RL 最终实现学习能力。在 ChatGPT Code Interpreter 环境下，用户使用自然语言 Prompt 转为 code，Code Interpreter 反馈出错信息，GPT 会根据错误信息再次调整 code 直至成功运行，完成指令。基于这样的技术框架，GPT 通过 prompt to code 实现语义理解、语音转换、视觉分析、图像生成、API 调度等一系列 Action，用户甚至可以自定义 AR 的交互方式。
在报告《GPT-4 通用人工智能的火花》中，测试了该模型在计划和解决问题方面的能力，以及通过玩各种游戏和与工具互动来快速学习和从经验中学习的能力。特别是，GPT-4 能够使用工具（包括自身），这对构建真实世界应用程序非常重要。
在编程方面，要求 GPT-4 和 ChatGPT 编写自定义优化器模块，虽然两个模型都生成了语法有效的代码，但只有 GPT-4 的响应在很大程度上与指令匹配。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

Ilya Sutskever在5年前分享过[meta-learning](https://www.bilibili.com/video/BV1wb4y1M7iY/?spm_id_from=333.337.search-card.all.click&vd_source=c9c37a9df0798c5655ccd8a46fd4d281)，其中有一个叫Self-play概念。就是两个AI在一个虚拟环境（play ground）相互博弈，通过RL最终实现学习能力。所以在ChatGPT Code Interpreter环境下，用户可以使用自然语言Prompt转为code，Code Interpreter反馈出错信息，GPT会根据错误信息再次调整code直到成功运行，完成指令。基于这样的技术框架，GPT通过prompt to code实现语义理解，语音转换，视觉分析，图像生成，API调度等一系列Action。用户甚至可以自定义AR的交互方式。

报告：GPT-4 通用人工智能的火花

[title]报告：GPT-4通用人工智能的火花[heading1]1.介绍[heading2]1.2我们的演示结构3.在第5部分，我们测试了该模型在计划和解决问题方面的能力，以及在某种程度上通过让它玩各种游戏（或者说是模拟游戏环境）以及与工具互动来快速学习和从经验中学习的能力。特别是，GPT-4能够使用工具（包括自身），这肯定对使用GPT-4构建真实世界应用程序非常重要。4.我们论证的一个重要部分是，GPT-4在许多任务上达到了人类水平的表现，因此，自然会问GPT-4对人类本身的理解有多好。我们在第6部分展示了关于这个问题的几个实验，既包括理解人类，也包括GPT-4使自己能够被人类理解的问题，即解释性问题。我们特别注意到，这些任务需要大量的常识，这在LLM中迄今为止一直是众所周知的痛点[DM15]。在下图中，我们给出了一个GPT-4在常识问题上表现得比ChatGPT好得多的例子，并在附录A中提供了更多的例子。5.在整个论文中，我们明确讲了发现的所有限制，同时也专门在第8部分对GPT-4架构中的自回归特性导致的缺乏规划能力进行了深入分析。6.最后，在第9部分，我们讨论了这种早期形式的AGI的预期社会影响，而在第10部分，我们分享了该领域的关键挑战、方向和下一步行动。很多读者可能心中仍然有一个问题，即GPT-4是否真正理解了所有这些概念，还是仅仅比以前的模型更擅长即时改进（improvisation），而没有真正或深刻的理解。我们希望在阅读本文后，这个问题几乎应该反过来了，人们可能会想知道真正的理解远比即兴表演复杂得多。如果一个系统能够通过软件工程候选人的考试（下图），难道就不能说它真正具有智能吗？也许理解的唯一真正测试是能否产生新知识，例如证明新的数学定理，这在LLM中目前仍然是不可实现的。

报告：GPT-4 通用人工智能的火花

[title]报告：GPT-4通用人工智能的火花[heading1]3.编程[heading2]3.1从指令到代码-深度学习-编写深度学习代码需要掌握数学、统计学知识，并熟悉框架和库，如PyTorch、TensorFlow、Keras等。在下图中，我们要求GPT-4和ChatGPT编写自定义优化器模块，这对于即使是深度学习专家来说也可能是具有挑战性和容易出错的任务。我们给这些模型提供自然语言描述，其中包括一系列非常规操作，例如应用SVD，对矩阵进行谱截断，在top-k和top-2k特征值上进行截断，使用top-2k截断矩阵的F-norm对top-k截断矩阵进行归一化，应用动量和权重衰减。这些指令没有详细解释，例如「在Gk上应用动量」需要「深度学习的常识」。值得注意的是，这种优化器在文献或互联网上不存在，因此模型不能将其记忆，而必须正确组合概念才能生成代码。虽然两个模型都生成了语法上有效的代码，但只有GPT-4的响应在很大程度上与指令匹配，而它忘记了「循环遍历维度」和「根据动量规范化Gk」，这些指令特别含糊不清。相比之下，ChatGPT在应用动量时犯了一个相当致命的错误（用红色突出显示）。请注意，将动量应用于PyTorch是一项非平凡的任务，需要将移动平均值存储和读取到一个单独的状态缓冲区中。