Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

GPT O1强在哪里

Answer

GPT O1 的强大之处主要体现在以下几个方面:

  1. 在推理方面,与 4o 相比具有显著优势,各项得分结果均超越 4o。
  2. 在 GPQA diamond 这一困难的智力基准测试中,表现超越了拥有博士学位的专家,成为首个在该基准测试上达到此成就的模型。
  3. 在物理、化学、生物、数学和编程等领域的挑战性任务上,表现出色,如同博士生一样优秀,甚至在 IMO 和 Codeforces 竞赛中取得高分。
  4. 具有更聪明的思考方式,会花更多时间思考问题,尝试不同策略,甚至能意识到自身错误。
  5. 在遵循指令方面能力较强,且在“后训练”阶段可能存在增强指令遵循能力的环节,极大增强了逻辑推理类的指令遵循数据比例,进一步加强了基座模型的逻辑推理能力。

虽然目前暂时缺少像 ChatGPT 那样的网络浏览和文件上传功能,但在复杂推理任务上已经非常强大。

Content generated by AI large model, please carefully verify (powered by aily)

References

OpenAI:我憋了个新大招儿,它叫o1-preview/mini

而且你会发现,4o这个模型也被OpenAI当作对标狠狠地刷了一把自家的脸。看完这个评测结果后,我觉得4o和o1在推理方面,基本等于电瓶车和宾利的差距了...不信你看下方详细测试结果这里的红色线代表4o的得分,而绿色线代表o1的得分,一眼扫过去,没有哪项得分结果是4o能盖过o1的。不过等等,这里有个问题,那就是:OpenAI声称的“超过人类博士水平”是怎么测的?OpenAI在新page中也对这个做了答复:“我们还在GPQA diamond上评估了o1,这是一个困难的智力基准测试,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们招募了拥有博士学位的专家来回答GPQA-diamond的问题。我们发现o1的表现超越了这些人类专家,成为第一个在这个基准测试上做到这一点的模型。”这么看来,这个测试还是较为可信的,不过OpenAI在“开大”以后,也谦虚了一把,他们是这样说的:“这些结果并不意味着o1在所有方面都比博士更有能力——只是说明该模型在解决一些预期博士能够解决的问题上更加熟练。在其他几个机器学习基准测试上,o1改进了最先进的水平。”

4.4 历史更新

1.更聪明的思考方式:这些模型像人一样,会花更多时间思考问题,尝试不同的策略,甚至能意识到自己的错误。2.在复杂任务上表现出色:在物理、化学、生物、数学和编程等领域的挑战性任务上,新模型表现得像博士生一样好,甚至在IMO和Codeforces竞赛中取得了高分。3.暂时缺少一些功能:虽然目前还没有ChatGPT那样的网络浏览和文件上传功能,但在复杂推理任务上,OpenAI O1已经非常强大了。4.AI能力的新高度:这个新系列代表了AI能力的一个新水平,所以我们把它命名为OpenAI O1。

张俊林:Reverse-o1: OpenAI o1原理逆向工程图解

在“后训练”阶段,应该有一个环节是用来增强LLM模型的指令遵循能力的,也就是说RLHF阶段应该是有的。因为o1在遵循指令方面能力并不弱,而且生成的Hidden COT片段里明显也包含很多指令性的内容,如果遵循指令能力比较弱,估计对于生成Hidden COT也有负面影响。所以,推断起来这个环节大概在“思考”阶段之前。(但是RLHF阶段未必有RM和PPO)。但这里和[GPT](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=7&q=GPT&zhida_source=entity)4对应的RLHF阶段应有两个重要的不同:首先,o1应该在这个阶段没有做内容安全方面的事情,大概率是挪到后面的阶段了(也有可能这两阶段都做了?)。其次,这个阶段大概率也会极大增强逻辑推理类的指令遵循数据比例,以此进一步加强[基座模型](https://zhida.zhihu.com/search?content_id=248563321&content_type=Article&match_order=1&q=%E5%9F%BA%E5%BA%A7%E6%A8%A1%E5%9E%8B&zhida_source=entity)的逻辑推理能力,原因我们等会专门说明。

Others are asking
chatGPT
ChatGPT 是一种由 OpenAI 开发的基于 GPT(生成式预训练变换器)架构的人工智能模型。 它的工作原理是:从网络、书籍等来源获取大量人类创作的文本样本,然后训练神经网络生成“类似”的文本。特别是能够从“提示”开始,继续生成“类似于训练内容”的文本。 ChatGPT 中的实际神经网络由大量简单元素组成,基本操作是为每个新单词(或单词部分)生成“输入”,然后将其“通过其元素”。 其具体工程相当引人入胜,最终(至少在它可以使用外部工具之前),ChatGPT 仅仅从它积累的“传统智慧统计数据”中提取了一些“连贯的文本线索”。 ChatGPT 基于 OpenAI 最先进的语言模型 gpt3.5turbo。使用 OpenAI 的 API,你可以用它构建自己的应用来做很多事情,比如起草邮件、写 Python 代码、回答关于一组文档的问题、创建会话代理、给软件提供自然语言接口、辅导各种学科、语言翻译、假扮游戏或其他内容的角色等。 目前 ChatGPT 官网有两个版本,分别是 GPT3.5 和 GPT4。GPT3.5 是免费版本,拥有 GPT 账号即可使用,但智能程度不如 GPT4 高,且无法使用 DALL.E3(AI 画图功能)和 GPTs 商店和高级数据分析等插件。想要使用更多功能更智能的 GPT4 需要升级到 PLUS 套餐,收费标准是 20 美金一个月,当然 GPT4 还有团队版和企业版,功能更多、限制更少,但费用也更贵,一般推荐使用 PLUS 套餐。 在注册 ChatGPT 账号之前,建议先注册一个谷歌账号,因为国外很多软件支持谷歌账号一键登录,注册谷歌账号支持国内手机号码和国内邮箱验证,过程简单。
2025-04-12
GPT提示词
以下是关于 GPT 提示词的相关内容: 夙愿:AI 快速总结群聊消息 提示词:需要编写一套提示词让 GPT 执行总结文字内容的工作,包括单人发言版和多人发言版。 GPT 处理:将提示词和文字原文发送给 GPT,等待其输出完毕后复制粘贴到文本编辑器中,整理并删除无关内容,替换双星号。 头脑风暴常用的 20 个 prompt:列举了 20 个不同类型的提示词,如 Brainwriting Prompt、Reverse Brainstorming Prompt 等。 子瞻:五个 GPTs 破解攻略 GPT 使用的两大痛点:创建满足指定需求的提示词和找到满足指定需求的 GPTs。 学习高质量提示词的好处:学习高手的 Prompt 方法和更好地使用对应的 GPTs。 五大破解攻略的具体方法: 直接法:适用于未设置提示防御和未限定回答领域,示例中只要四个单词,粗暴好用。 设置遗忘:适用于 GPTs 设置了简单的提示防御。 复述法:适用于可获取 OpenAI 官方的设定。
2025-04-10
随着 ChatGPT、Deepseek 等 AI 技术的爆发式发展,人工智能正在加速渗透各行业应用场景,包括茶饮行业。请你对 AI 技术在茶饮行业的影响进行研究分析,并提出 AI 技术可以在连锁奶茶店如何应用的设想。
以下是关于 AI 技术在茶饮行业的影响分析及在连锁奶茶店应用的设想: 影响分析: 1. 提升运营效率:通过自动化流程和智能预测,优化库存管理、员工排班等环节。 2. 改善客户体验:利用智能客服快速响应顾客咨询,提供个性化推荐。 3. 精准营销:基于大数据分析顾客偏好,制定更有针对性的营销策略。 应用设想: 1. 智能点单系统:根据顾客的历史订单和偏好,为其推荐饮品和搭配。 2. 库存管理优化:借助 AI 预测销售趋势,精准控制原材料库存。 3. 员工培训辅助:利用虚拟培训工具,提升员工的服务技能和产品知识。 4. 营销决策支持:通过数据分析,确定最佳的促销活动和推广渠道。 目前的知识库中,相关的具体研究报告主要有: 1. 浙江大学:《DeepSeek 技术溯源及前沿探索朱强》(2025/03/19),介绍了语言模型从基于统计的 Ngram 到 Transformer 的技术演化,以及大模型的发展,如 GPT 系列。 2. 浙江大学:《DeepSeek:回望 AI 三大主义与加强通识教育报告》(2025/03/05),围绕人工智能展开,介绍其发展历程、三大主义、技术进展、应用成果以及教育举措。 3. 清华大学:《气象人工智能技术与应用报告》(2024/12/25),围绕气象人工智能展开,介绍了其发展和应用情况。 如需下载这些研究报告,可。
2025-04-09
在国内如何使用GPT-4O
在国内使用 GPT4 的方法如下: 安卓系统: 1. 安装 Google Play:到小米自带的应用商店搜索 Google Play 进行安装,安装好后打开,按照提示一步步操作登录。 2. 下载安装 ChatGPT:到谷歌商店搜索“ChatGPT”进行下载安装(开发者是 OpenAI,别下错)。可能会遇到“google play 未在您所在的地区提供此应用”的问题,解决方法如下:在 google play 点按右上角的个人资料图标,依次点按:设置>常规>帐号和设备偏好设置>国家/地区和个人资料。在这里看到账号没有地区,可以“添加信用卡或借记卡”,国内的双币信用卡就行,填写信息时地区记得选美。如果回到 Google Play 首页还搜不到 ChatGPT,可以卸载重装 Google Play,操作过程保持梯子的 IP 一直是美,多试几次。 3. 体验 ChatGPT:如果只想体验 ChatGPT 3.5 版本,不升级 GPT4,直接登录第二部注册好的 ChatGPT 账号即可。 4. 订阅 GPT4 Plus 版本:先在 Google play 中的【支付和订阅】【支付方式】中绑定好银行卡,然后在 ChatGPT 里订阅 Plus。 苹果系统: 1. 在 Apple Store 下载 ChatGPT:中国区正常下载不了,需要切换到美区才可以下载。美区 Apple ID 注册教程参考如下知乎链接: 。最终在 Apple Store 搜到 ChatGPT 结果如下,下载安装即可,注意别下错。 2. 支付宝 购买苹果礼品卡 充值 订阅付费 App:打开支付宝,地区切换到【美区任意区】,往下滑,找到【品牌精选 折扣礼品卡】,点击进去,可以看到【大牌礼品卡】,往下滑找到【App Store&iTunes US】礼品卡,按需要的金额购买即可,建议先买 20 刀。然后进行以下操作: 支付宝购买礼品卡。 在 apple store 中兑换礼品卡。 在 chatgpt 中购买订阅 gpt plus,如果中途不想继续订阅了,可到订阅列表中取消订阅。 完成上述步骤后,就可以开始使用 ChatGPT 4 了。需要注意的是,在国内使用相关服务可能存在法律风险和技术限制,请谨慎操作。
2025-03-30
GPT 4o
GPT4o 是突破深度学习界限的最新成果,朝着实用可用性方向发展。过去两年致力于提高堆栈各层效率,使得能更广泛提供 GPT4 级别模型,其功能将迭代推出。 文本和图像功能已在 ChatGPT 中推出,在免费套餐中提供,并向 Plus 用户提供高达 5 倍的消息限制,未来几周将在 ChatGPT Plus 中推出带有 GPT4o 的新版本语音模式。 开发者可在 API 中作为文本和视觉模型访问 GPT4o,它比 GPT4 Turbo 快 2 倍,价格减半,速率限制高 5 倍。 在安全挑战和评估方面: 在第二个旨在涵盖风险建议(如攻击规划)的红队评估数据集中,GPT4.5 有 46%的输出是安全的,优于 GPT4o 的 40%,但低于深度研究的 67%或 o1 的 68%。 对 GPT4.5 与 GPT4o 和 o1 进行了一系列不允许内容的评估,包括标准拒绝评估、具有挑战性的拒绝评估、WildChat(有毒)和 XSTest 等,评估使用自动评分器,检查“not_unsafe”(未产生不安全输出)和“not_overrefuse”(未过度拒绝良性请求)两个主要指标,发现 GPT4.5 总体上与 GPT4o 相当。
2025-03-29
GPT4o图片生成能力
GPT4o 是 OpenAI 推出的一种先进的图像生成模型,具有以下能力和特点: 1. 核心功能: 是一种先进的多模态模型,能够生成精确、真实感强的图像。 其图像生成功能不仅美观,还具有实际用途,例如白板演示、科学实验图解等。 2. 亮点功能: 精确的文本渲染:能够在图像中准确生成文字,例如街道标志、菜单、邀请函等。 结合文本和图像,提升了视觉传达能力。 多样化场景生成:支持从照片级真实感到漫画风格的多种图像生成。 可根据用户上传的图像进行灵感转化或视觉改造。 上下文感知:能够利用 GPT4o 的内在知识库和对话上下文生成符合语境的内容。 3. 技术改进: 通过联合训练在线图像和文本的分布,模型学会了图像与语言之间以及图像之间的关系。 经过后期训练优化,模型在视觉流畅性和一致性方面表现出色。 4. 实际应用场景: 信息传递:从标志性图像到复杂的科学图表,帮助用户更有效地传达信息。 创意设计:生成创意菜单、街道标志和独特的视觉故事。 教育与演示:支持生成教学图表、实验示意图等。 5. 局限性:尽管生成能力强,但仍可能存在某些场景或细节的限制。 6. 安全性与可用性:OpenAI 强调了安全性和隐私保护。目前该功能已集成到 ChatGPT 中,用户可直接体验。 此外,GPT4o 图像生成模型整合进了 4o 模型中,基于多模态训练,能够结合文本和图像的上下文,生成更智能、更逼真一致的视觉内容,并支持用户通过自然对话对其进行编辑调整和优化。它不仅能提供传统的图像生成,还可以生成更复杂的图像,包括插图、图表、PPT 元素、logo、游戏角色设计等。
2025-03-28
使用O1来控制智能硬件
O1 是一个完全开源的可以控制家里电脑的 AI 语音智能助手。它能够看到您的屏幕内容,学习使用您常用的应用,无论您身在何处,都能通过按下按钮、讲话让它帮您操作电脑完成任务。其 CAD 文件、电路设计、代码完全开源,有能力的开发者可以直接制作该设备。灵感来自 Andrej Karpathy 的 LLM 操作系统,10 月份他的 LLM 科普视频含金量仍在上升。O1 运行一个代码解释语言模型,并在计算机内核发生特定事件时调用它。项目地址:https://github.com/OpenInterpreter/01
2025-02-05
O1和以前的有什么区别?
O1 与以前的模型相比,有以下区别: 1. 在人类偏好测试中,文字生成方面人类更倾向于 4o 的回复,而在数据分析、编码和数学等大量推理类别中,O1preview 的回复更受评测人员青睐。 2. O1 的出色推理表现源自思维链技术,且此次的思维链相比在 4o 上有很大改进,例如通过强化学习,O1 学会了磨练思维链并改进策略、识别和纠正错误、分解棘手步骤、尝试不同方法等。 3. 作为早期模型,O1 还不具备使 ChatGPT 有用的一些功能,如浏览网页获取信息、上传文件和图像。但对于复杂推理任务是重大进步,代表了新的 AI 能力水平。 4. 在一些竞赛和基准测试中表现出色,如在 2024 美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前 500 名学生之列,在竞争性编程问题(Codeforces)中 o1perview 拿到 62 个百分位,在物理、生物和化学问题的基准(GPQA)中 O1 与 O1perview 都超过了人类博士水平的准确性。
2024-09-16