Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

openAI新出的o1是什么

Answer

OpenAI 于北京时间 9 月 13 号凌晨 1 点多宣布推出模型 o1-perview 与 o1-mini(真正的 o1 版本将在后续开放),拥有 Plus 版本的用户会陆续收到新模型权限,并可在 Web 客户端中尝鲜体验。

在评估结果方面:

  • o1 在 2024 美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前 500 名学生之列。
  • o1 在竞争性编程问题(Codeforces)中排名第 89 个百分位(这个版本的模型还没发布),而 o1-perview 拿到了 62 个百分位。
  • 在物理、生物和化学问题的基准(GPQA),o1 与 o1-perview 都超过了人类博士水平的准确性。

关于“超过人类博士水平”的测试,OpenAI 在新 page 中答复:“我们还在 GPQA diamond 上评估了 o1,这是一个困难的智力基准测试,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们招募了拥有博士学位的专家来回答 GPQA-diamond 的问题。我们发现 o1 的表现超越了这些人类专家,成为第一个在这个基准测试上做到这一点的模型。”但 OpenAI 也表示“这些结果并不意味着 o1 在所有方面都比博士更有能力——只是说明该模型在解决一些预期博士能够解决的问题上更加熟练。在其他几个机器学习基准测试上,o1 改进了最先进的水平。”

推理模型的准确率不断攀升,这意味着 AI 技术可以渗透到更多行业、更多高精尖业务中去。OpenAI 推出的新模型为整个行业注入了强心剂,带来了新的活力和希望。从 OpenAI 提出的通往 AGI(通用人工智能)的分级来看,我们正在从第一级向第二级迈进,未来可能会见证 AI 从单纯的生成工具向真正的智能体转变。此外,4o 模型和 o1 在推理方面差距较大,红色线代表 4o 的得分,绿色线代表 o1 的得分,o1 在各项得分结果上均优于 4o。

Content generated by AI large model, please carefully verify (powered by aily)

References

OpenAI:我憋了个新大招儿,它叫o1-perview/mini

凌晨2点半写的这篇稿子,行了,也顾不上睡觉了,咱们就开门见山直接说吧!这回Sam可是真不放鸽子了。北京时间9月13号凌晨1点多,OpenAI宣布推出了模型o1-perview与o1-mini(真正的o1版本将在后续开放)。而拥有Plus版本的用户会陆续收到新模型权限,同时可以直接在Web客户端中进行尝鲜体验。OpenAI最近公布的模型发布计划中提到的"推理模型"已经成为业界热点。而这两个新模型正是该计划的具体实现。再加上从"草莓哥"的炒作到Sam Altman富有深意的暗喻,都让这个"推理模型"备受关注。虽然大家对它有所耳闻,但对其实际效果可能还不太清楚。为了直观地了解这个模型的真正能力,我们不妨看看下方的评估结果。左一:o1在2024美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前500名学生之列。中间:o1在竞争性编程问题(Codeforces)中排名第89个百分位(这个版本的模型还没发布),而o1-perview拿到了62个百分位。最右:在物理、生物和化学问题的基准(GPQA)o1与o1-perview都超过了人类博士水平的准确性。

OpenAI:我憋了个新大招儿,它叫o1-perview/mini

但推理模型的准确率不断攀升、甚至达到完全可信的地步确实是一件非常惊喜又恐怖的事情。之前让模型干创意的活儿,现在又能干精确的活儿,这属于全场景覆盖!这意味着AI技术可以渗透到更多行业、更多高精尖业务中去!同时,我回想起老师曾经对我说过的一句话:"不管现在的大模型处理速度多慢,操作多么繁琐,只要能保证最终结果的正确性,它就拥有无限的可能性。"我觉得老师的话不无道理,不要看现在新模型的推理速度慢,但这些都可以通过增配新硬件去解决,只要钱到位,这都不是问题。况且,这也可能是慢思考系统的一种呢?你说对吧!再者,在今年上半年,甚至是上个月,很多人还在担忧大模型的前景。但OpenAI推出的新模型无疑给这个行业注入了一剂强心剂,为整个领域带来了新的活力和希望。这是令人赞叹和振奋的。更令人兴奋的是,如果结合OpenAI提出的通往AGI(通用人工智能)的分级来看,我们正在从第一级向第二级迈进。随着模型的不断完善,甚至后面出现GPT-5,我们将可能会慢慢见证AI从单纯的生成工具向真正的智能体转变。让我们睁开眼好好看看这世界,看看这一切。未来可期。以上。附:

OpenAI:我憋了个新大招儿,它叫o1-perview/mini

而且你会发现,4o这个模型也被OpenAI当作对标狠狠地刷了一把自家的脸。看完这个评测结果后,我觉得4o和o1在推理方面,基本等于电瓶车和宾利的差距了...不信你看下方详细测试结果这里的红色线代表4o的得分,而绿色线代表o1的得分,一眼扫过去,没有哪项得分结果是4o能盖过o1的。不过等等,这里有个问题,那就是:OpenAI声称的“超过人类博士水平”是怎么测的?OpenAI在新page中也对这个做了答复:“我们还在GPQA diamond上评估了o1,这是一个困难的智力基准测试,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们招募了拥有博士学位的专家来回答GPQA-diamond的问题。我们发现o1的表现超越了这些人类专家,成为第一个在这个基准测试上做到这一点的模型。”这么看来,这个测试还是较为可信的,不过OpenAI在“开大”以后,也谦虚了一把,他们是这样说的:“这些结果并不意味着o1在所有方面都比博士更有能力——只是说明该模型在解决一些预期博士能够解决的问题上更加熟练。在其他几个机器学习基准测试上,o1改进了最先进的水平。”

Others are asking
最近新出的大模型有哪些
最近新出的大模型有: 1. 通义千问推出的 Qwen2.5Max 大型专家模型,通过 SFT 和 RLHF 策略后训练,性能与顶尖模型竞争,在多个基准测试中超越了 DeepSeek V3,引发了 AI 社区对大规模专家模型的高度关注。相关链接: Blog: Qwen Chat: (选择 Qwen2.5Max 模型) API: HF Demo: 2. 阿里云发布的 Qwen2.5VL 新一代视觉语言模型。
2025-03-27
最近国内外 有什么新出的AI产品
以下是国内外新出的一些 AI 产品: 图像类产品: 国内: 可灵:由快手团队开发,用于生成高质量的图像和视频,图像质量高,最初采用内测邀请制,现向所有用户开放,价格相对较高,重度用户年费可达几千元,平均每月使用成本在 400 到 600 元,也有临时或轻度使用的免费点数和较便宜包月选项。 通义万相:在中文理解和处理方面表现出色,可选择多种艺术和图像风格,生成图像质量高、细节丰富,操作界面简洁直观、用户友好度高,能与阿里其他产品和服务无缝整合,重点是现在免费,每天签到获取灵感值即可,但存在某些类型图像无法生成、处理非中文语言或国际化内容不够出色、处理多元文化内容可能存在偏差等局限性。 搜索类产品: 国内:大模型厂商推出的 ChatBot 产品(智谱清言、Kimi Chat、百小应、海螺 AI 等),搜索厂商或创业团队推出的 AI 搜索产品(360 AI 搜索、秘塔、博查 AI、Miku 等)。 海外:Perplexity、You、Phind 等。 中国公司和团队的出海产品:ThinkAny、GenSpark、Devv 等。 PPT 类产品: 国内:爱设计 PPT,背后有实力强大的团队,对市场需求有敏锐洞察力,把握住了 AI 与 PPT 结合的市场机遇,已确立市场领先地位,代表了当前国内 AI 辅助 PPT 制作的最高水平,能提高制作效率并保证高质量输出。
2025-01-06
斯坦福大学新出的AI工具storm,storm的主要功能有哪些,如何使用
STORM 是斯坦福大学开发的创新写作系统,主要功能包括: 1. 自动化编写具有维基百科深度的长篇文章。 2. 通过模拟人类写作过程中的预写、起草和修订阶段,实现自动化信息收集和大纲创建。 关于如何使用,目前提供的信息中未明确提及具体的使用方法。但您可以通过以下途径获取更多使用相关的信息: 1. 访问相关链接:https://arxiv.org/abs/2402.14207 、https://x.com/xiaohuggg/status/1762308686259929162?s=20 。 此外,还有一种用于语音增强和去发声的随机再生模型 StoRM : 1. 代码获取:https://github.com/spuhh/storm 2. 演示查看:https://www.inf.unihamburg.de/en/inst/ab/sp/publications/storm 3. 论文查阅:https://arxiv.org/abs/2212.11851 其核心在于随机再生方法,能够结合预测模型和基于扩散的生成模型的优势,生成更清晰、更自然的语音输出。在实际应用中,可从受损的语音信号中恢复出干净的语音,且通过减少逆向扩散步骤的数量和避免使用复杂的修正器,显著降低了计算负担。在实验中,其在多个标准数据集上的表现均超过了现有的预测性和生成性语音增强方法。源代码和音频示例已公开,方便研究人员和开发者进一步探索和应用。
2025-01-03
斯坦福大学新出的AI工具storm
以下是关于斯坦福大学新出的 AI 工具 STORM 的相关信息: STORM 是斯坦福大学开发的创新写作系统,能够自动化编写具有维基百科深度的长篇文章。它通过模拟人类写作过程中的预写、起草和修订阶段,实现自动化的信息收集和大纲创建。相关链接:https://arxiv.org/abs/2402.14207 ,https://x.com/xiaohuggg/status/1762308686259929162?s=20
2025-01-03
OpenAI o1、Claude Sonnet 3.7、Gemini 2.0 pro 哪个 AI 搜索能力更强?
OpenAI o1、Claude Sonnet 3.7 和 Gemini 2.0 pro 在不同方面具有各自的优势,难以简单地比较哪个的搜索能力更强。 OpenAI o1 推理能力强,适合作为架构师或算法顾问。 Claude Sonnet 3.7 擅长长上下文任务,在快速生成代码与网页设计方面表现出色。 Gemini 2.0 pro 长上下文支持较好(2M Tokens),适合代码反编译与混淆代码分析。 具体的搜索能力表现还会受到应用场景和具体任务的影响。
2025-03-21
chatgpt o1 o3和4o有什么区别
ChatGPT 的 o1、o3 和 4o 主要有以下区别: 注册和使用方面: 注册账号时,需访问官方网站,如有账号直接登录,没有则点击“注册”。然后填写名字和出生日期(确保年龄在 18 岁以上),点击“Agree”(同意),完成注册后点击“好的,开始吧”进入主页面,可免费使用 ChatGPT 3.5。 知识更新方面: ChatGPT 3.5 的知识更新到 2022 年 1 月,ChatGPT 4o 的知识更新到 2023 年 10 月,而 ChatGPT 4 更新到 2023 年 12 月。 性能和应用方面: 在一些测试中,如在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT4o 正确解决问题的比例与其他模型有所不同。 作为早期模型,o1 还不具备像浏览网页获取信息、上传文件和图像等使 ChatGPT 实用的许多功能。对于网文创作提示词,通用版建议使用 ChatGPT 4o,但其他模型也可以,可能存在不稳定的情况。
2025-02-09
chatgpt o1和4o有什么区别
ChatGPT 的 o1 推理模型和 GPT4o 主要有以下区别: 1. 回答速度:GPT4o 能够快速返回答案,而 o1 模型在给出最终结果前会反复推演和验证,因此耗时更长。 2. 准确性和纠错能力:GPT4o 可能给出错误答案且无法自动纠错,而 o1 支持回溯推理,结果更准确。 3. 复杂问题处理能力:o1 Pro 的计算时间更长,推理能力更强,更适合处理复杂问题。例如,o1 Pro 成功完成了《纽约时报》“Connections”文字游戏,这是 GPT4o 无法解决的任务。 在应用方面,对于许多常见情况,GPT4o 在短期内更有能力。但对于复杂的推理任务,o1 系列是重大进步,代表了 AI 能力的新水平。
2025-02-09
如何可以使用到chatgpto1大模型
目前 ChatGPT 没有 ChatGPT1 这个大模型。ChatGPT 有多个版本,如 ChatGPT3、ChatGPT3.5、ChatGPT4 等。您可以通过以下方式使用 ChatGPT 相关模型: 1. 访问 OpenAI 的官方网站,按照其指引进行注册和使用。 2. 部分应用和平台可能集成了 ChatGPT 的接口,您可以在这些应用中体验其功能。 需要注意的是,使用 ChatGPT 时应遵循相关的使用规则和法律法规。
2024-11-16
openAI的deep research有哪些缺陷
OpenAI 的 Deep Research 存在以下一些缺陷: 1. 具有滞后性,在某些信息上无法做到及时更新。 2. 存在信息混乱的问题,无法完全替代人类的深度思考。
2025-03-03
openAI关于道德规范的调整是什么
OpenAI 在道德规范方面的调整包括以下内容: 1. OpenAI 认为通过分析 ChatGPT 和 GPT4 用户对数百万条提示的反应,能获得知识以使未来的产品符合道德规范。 2. 随着公司承担更多任务并投入更多商业活动,有人质疑其在多大程度上能集中精力完成降低灭绝风险等任务。 3. OpenAI 与数以百计的内容审核员签订合同,对模型进行教育,使其了解对用户提示做出的不恰当或有害回答。 4. 山姆·奥特曼曾强调 AI 可能带来的潜在灾难,如大规模虚假信息传播、网络攻击以及威权政府滥用等,并对 OpenAI 最初的开放性承诺进行重新考虑。 5. 公司领导层认为董事会作为非营利性控制实体的一部分,将确保营收和利润的驱动力不会压倒最初的想法。但目前 OpenAI 还不清楚 AGI 到底是什么,其定义将由董事会决定。
2025-02-18
openAI过去几年的发展历程
OpenAI 在过去几年的发展历程如下: 在整个团队的努力下,迎来了技术高速发展的“黄金三年”,在自然语言处理领域取得突破性进展,推出了 GPT1、GPT2 和 GPT3 系列模型,每次模型迭代都使模型复杂度成指数级别上升,模型效果也越来越好。 2022 年 11 月 30 日,发布基于 GPT 3.5 的 ChatGPT,引发全球 AI 浪潮。 大约九年前创立,怀揣着对 AGI 潜力的坚定信念,渴望探索如何构建并使其惠及全人类。 创始人山姆·奥特曼回首创业历程,认为虽然有挑战和不愉快,但收获和成长巨大,也暴露出团队在管理上的不足。 展望 2025 年,坚信首批 AI Agent 将融入劳动力市场,目标已瞄准真正意义上的超级智能。新的一年充满反思,随着 AGI 脚步临近,是回顾公司发展历程的重要时刻。
2025-02-11
openAI 最近的发布会都有哪些主要内容?
OpenAI 最近的发布会主要内容包括: 2023 年 11 月的开发者大会,开放了 GPTs 和 GPT4 Turbo 等一系列内容,不过由于 DDoS 攻击和负载问题,其所有服务断断续续挂了接近一天。 之前还悄咪咪开放了两个新功能,包括可以上传 PDF 等文档进行分析和提问,以及在 GPT4 加持下,代码解释器、图片交谈、图片生成和联网能力可自行选择完成任务。 发布了图像生成模型 sCM 等。
2024-12-16
openAI真正想要什么
OpenAI 真正想要达成的目标包括: 1. 让系统能够完成人类以前无法完成的事情。 2. 通过发布如 ChatGPT 等产品,让公众适应 AI 注定会改变他们日常生活的现实,以实现更好的生活,这被称为“迭代部署假设”。 3. 使 AI 变得安全、易用且开源,为绝大多数人提供强大的工具,让坏人不堪一击。 4. 虽然在成立初期对如何实现目标毫无头绪,但相信通过不断改进的深度学习技术和人工神经网络,以及研究人员的努力,能够推动其发展。例如聘请了研究员 Alec Radford 等。 在 OpenAI 内部,对于是否发布功能强大的工具如 ChatGPT 曾有争论。ChatGPT 引起了轰动,被视为其更新、更强大的后继者 GPT4 的台标。但 OpenAI 对于 GPT4 的参数和数据集等细节未予证实和透露。在早期,OpenAI 的研究人员尝试了多种方向,包括解决视频游戏的系统和机器人技术等,但成效不佳。
2024-09-30