Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

GPT-4与GPT-4o能力对比雷达图

Answer

GPT-4o 具有以下能力:

  • 音频方面:
    • 比 Whisper large v3 更好地转录音频。
    • 可以将音频整理成会议记录。
    • 能够将音频从一种语言翻译成另一种语言。
    • 可以总结音频。
    • 从语音合成角度:
      • 通过提示创建语音角色,包括说话的速度、情感等。
      • 跨语音类型合成(语音克隆)。
      • 进行长格式和短格式语音合成。
      • 实现跨语言合成。
    • 使用的标记数量减少了 2 - 3 倍,词汇量更大。
  • 视觉方面:
    • 生成更符合提示的图像。
    • 总结视频。
    • 创建 3D 资产。
    • 进行光学字符识别等。
  • API 方面:与 GPT4-turbo 对比,速度快 2 倍,价格减半,访问限制提高 5 倍。

在实际使用中,与 GPT 4.0 相比,GPT 4o 输出的长度有所提升,输出速度更快。在同样自然语言的情况下,之前用 GPT 4.0 要求写 5000 字的文章,只能做到 866 个字,中间还断了一次,而使用 GPT 4o 输出了 1182 个字,一气呵成。在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 仅正确解决了 13%的问题,而推理模型得分为 83%。其编码能力在比赛中达到了 Codeforces 比赛的第 89 个百分位。但作为早期模型,它还不具备使 ChatGPT 实用的许多功能,如浏览网页获取信息以及上传文件和图像。在许多常见情况下,GPT-4o 在短期内更有能力。

Content generated by AI large model, please carefully verify (powered by aily)

References

OpenAI 春季发布会:GPT-4o

官方介绍:https://openai.com/index/hello-gpt-4o/如何访问GPT-4、GPT-4 Turbo和GPT-4o?https://help.openai.com/en/articles/7102672-how-can-i-access-gpt-4-gpt-4-turbo-and-gpt-4oSam的博文:https://blog.samaltman.com/gpt-4o音频主管Alexis Conneau:https://twitter.com/alex_conneau[GPT4o的一些文本生成任务测试(连夜)](https://waytoagi.feishu.cn/wiki/Y3Aawxm4Piynr2kNjXOcJpnDnld?fromScene=spaceOverview)GPT-4o完全能力1.比Whisper large v3更好地转录音频2.它可以将音频整理成会议记录3.可以将音频从一种语言翻译成另一种语言4.总结音频5.所有这些都是零样本/少样本学习5.1.从语音合成的角度来看,它可以:5.1.1.通过提示创建语音角色-它说话的速度、情感等5.1.2.跨语音类型合成(语音克隆)5.1.3.长格式和短格式语音合成5.1.4.跨语言合成所有这些都只需要文本/音频指导。它使用的标记数量减少了2-3倍,即更好的标记器,但当然词汇量更大。从视觉方面来看,它可以:1.生成更符合提示的图像2.总结视频3.创建3D资产4.光学字符识别等等5.GPT-4o API—2倍快,半价,5倍访问限制(与GPT4-turbo对比)

GPTs 实战:大家来找茬

嘿,大家好呀,我是景淮,一个加拿大的程序员,沉迷AI不能自拔中。今天OpenAI的发布会更新了新的GPT-4o,看了直播的视频,还有官方发布出来的效果,确实惊艳。感觉又是搞死一大堆公司的节奏。然后坐等更新,终于在所有人都差不多更新完之际。我的号更新了,上手试了试,其他功能玩起来没有视频上那么惊艳。输出的长度有所提升。在同样自然语言的情况下,之前用GPT 4.0要求写5000字的文章,只能做到866个字,中间还断了一次(点了“继续”)然后,使用GPT 4o输出了1182个字,一气呵成。下图左边为GPT 4.0,右边为GPT 4o,大家可以对比感受下。然后是输出的速度,这边是4.0[20240513183818.webm](https://bytedance.feishu.cn/space/api/box/stream/download/all/VbOvbD4hMoKhLvxI57dcNtQhnhb?allow_redirect=1)下面是4o[20240513183934.webm](https://bytedance.feishu.cn/space/api/box/stream/download/all/XDe2bqY5eookYdxh3YPcp7UNnTg?allow_redirect=1)但这个输出速度,真的是不便秘了,甚至可以说是一泻千里!快,真的快。上面的视频没有做过任何加速处理,大家可以比较下生成速度。真的惊艳到我了。可能对不常用GPT的人来说,不就是输出长点,快点嘛?算什么提升。但对于熟悉GPT经常被其烦恼的人来说。这个改变是翻天覆地的。

OpenAI 新模型9.12发布:OpenAI o1-WaytoAGI整理

We trained these models to spend more time thinking through problems before they respond,much like a person would.Through training,they learn to refine their thinking process,try different strategies,and recognize their mistakes.我们训练这些模型在问题做出响应之前花更多时间思考问题,就像一个人一样。通过培训,他们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。In our tests,the next model update performs similarly to PhD students on challenging benchmark tasks in physics,chemistry,and biology.We also found that it excels in math and coding.In a qualifying exam for the International Mathematics Olympiad(IMO),GPT-4o correctly solved only 13% of problems,while the reasoning model scored 83%.Their coding abilities were evaluated in contests and reached the 89th percentile in Codeforces competitions.You can read more about this in our[technical research post](https://openai.com/index/learning-to-reason-with-llms/).在我们的测试中,下一次模型更新的性能类似于博士生在物理、化学和生物学中具有挑战性的基准任务。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o仅正确解决了13%的问题,而推理模型得分为83%。他们的编码能力在比赛中得到了评估,并在Codeforces比赛中达到了第89个百分位。您可以在我们的[技术研究帖子](https://openai.com/index/learning-to-reason-with-llms/)中阅读更多相关信息。As an early model,it doesn't yet have many of the features that make ChatGPT useful,like browsing the web for information and uploading files and images.For many common cases GPT-4o will be more capable in the near term.

Others are asking
chatGPT
ChatGPT 是一种由 OpenAI 开发的基于 GPT(生成式预训练变换器)架构的人工智能模型。 它的工作原理是:从网络、书籍等来源获取大量人类创作的文本样本,然后训练神经网络生成“类似”的文本。特别是能够从“提示”开始,继续生成“类似于训练内容”的文本。 ChatGPT 中的实际神经网络由大量简单元素组成,基本操作是为每个新单词(或单词部分)生成“输入”,然后将其“通过其元素”。 其具体工程相当引人入胜,最终(至少在它可以使用外部工具之前),ChatGPT 仅仅从它积累的“传统智慧统计数据”中提取了一些“连贯的文本线索”。 ChatGPT 基于 OpenAI 最先进的语言模型 gpt3.5turbo。使用 OpenAI 的 API,你可以用它构建自己的应用来做很多事情,比如起草邮件、写 Python 代码、回答关于一组文档的问题、创建会话代理、给软件提供自然语言接口、辅导各种学科、语言翻译、假扮游戏或其他内容的角色等。 目前 ChatGPT 官网有两个版本,分别是 GPT3.5 和 GPT4。GPT3.5 是免费版本,拥有 GPT 账号即可使用,但智能程度不如 GPT4 高,且无法使用 DALL.E3(AI 画图功能)和 GPTs 商店和高级数据分析等插件。想要使用更多功能更智能的 GPT4 需要升级到 PLUS 套餐,收费标准是 20 美金一个月,当然 GPT4 还有团队版和企业版,功能更多、限制更少,但费用也更贵,一般推荐使用 PLUS 套餐。 在注册 ChatGPT 账号之前,建议先注册一个谷歌账号,因为国外很多软件支持谷歌账号一键登录,注册谷歌账号支持国内手机号码和国内邮箱验证,过程简单。
2025-04-12
GPT提示词
以下是关于 GPT 提示词的相关内容: 夙愿:AI 快速总结群聊消息 提示词:需要编写一套提示词让 GPT 执行总结文字内容的工作,包括单人发言版和多人发言版。 GPT 处理:将提示词和文字原文发送给 GPT,等待其输出完毕后复制粘贴到文本编辑器中,整理并删除无关内容,替换双星号。 头脑风暴常用的 20 个 prompt:列举了 20 个不同类型的提示词,如 Brainwriting Prompt、Reverse Brainstorming Prompt 等。 子瞻:五个 GPTs 破解攻略 GPT 使用的两大痛点:创建满足指定需求的提示词和找到满足指定需求的 GPTs。 学习高质量提示词的好处:学习高手的 Prompt 方法和更好地使用对应的 GPTs。 五大破解攻略的具体方法: 直接法:适用于未设置提示防御和未限定回答领域,示例中只要四个单词,粗暴好用。 设置遗忘:适用于 GPTs 设置了简单的提示防御。 复述法:适用于可获取 OpenAI 官方的设定。
2025-04-10
随着 ChatGPT、Deepseek 等 AI 技术的爆发式发展,人工智能正在加速渗透各行业应用场景,包括茶饮行业。请你对 AI 技术在茶饮行业的影响进行研究分析,并提出 AI 技术可以在连锁奶茶店如何应用的设想。
以下是关于 AI 技术在茶饮行业的影响分析及在连锁奶茶店应用的设想: 影响分析: 1. 提升运营效率:通过自动化流程和智能预测,优化库存管理、员工排班等环节。 2. 改善客户体验:利用智能客服快速响应顾客咨询,提供个性化推荐。 3. 精准营销:基于大数据分析顾客偏好,制定更有针对性的营销策略。 应用设想: 1. 智能点单系统:根据顾客的历史订单和偏好,为其推荐饮品和搭配。 2. 库存管理优化:借助 AI 预测销售趋势,精准控制原材料库存。 3. 员工培训辅助:利用虚拟培训工具,提升员工的服务技能和产品知识。 4. 营销决策支持:通过数据分析,确定最佳的促销活动和推广渠道。 目前的知识库中,相关的具体研究报告主要有: 1. 浙江大学:《DeepSeek 技术溯源及前沿探索朱强》(2025/03/19),介绍了语言模型从基于统计的 Ngram 到 Transformer 的技术演化,以及大模型的发展,如 GPT 系列。 2. 浙江大学:《DeepSeek:回望 AI 三大主义与加强通识教育报告》(2025/03/05),围绕人工智能展开,介绍其发展历程、三大主义、技术进展、应用成果以及教育举措。 3. 清华大学:《气象人工智能技术与应用报告》(2024/12/25),围绕气象人工智能展开,介绍了其发展和应用情况。 如需下载这些研究报告,可。
2025-04-09
在国内如何使用GPT-4O
在国内使用 GPT4 的方法如下: 安卓系统: 1. 安装 Google Play:到小米自带的应用商店搜索 Google Play 进行安装,安装好后打开,按照提示一步步操作登录。 2. 下载安装 ChatGPT:到谷歌商店搜索“ChatGPT”进行下载安装(开发者是 OpenAI,别下错)。可能会遇到“google play 未在您所在的地区提供此应用”的问题,解决方法如下:在 google play 点按右上角的个人资料图标,依次点按:设置>常规>帐号和设备偏好设置>国家/地区和个人资料。在这里看到账号没有地区,可以“添加信用卡或借记卡”,国内的双币信用卡就行,填写信息时地区记得选美。如果回到 Google Play 首页还搜不到 ChatGPT,可以卸载重装 Google Play,操作过程保持梯子的 IP 一直是美,多试几次。 3. 体验 ChatGPT:如果只想体验 ChatGPT 3.5 版本,不升级 GPT4,直接登录第二部注册好的 ChatGPT 账号即可。 4. 订阅 GPT4 Plus 版本:先在 Google play 中的【支付和订阅】【支付方式】中绑定好银行卡,然后在 ChatGPT 里订阅 Plus。 苹果系统: 1. 在 Apple Store 下载 ChatGPT:中国区正常下载不了,需要切换到美区才可以下载。美区 Apple ID 注册教程参考如下知乎链接: 。最终在 Apple Store 搜到 ChatGPT 结果如下,下载安装即可,注意别下错。 2. 支付宝 购买苹果礼品卡 充值 订阅付费 App:打开支付宝,地区切换到【美区任意区】,往下滑,找到【品牌精选 折扣礼品卡】,点击进去,可以看到【大牌礼品卡】,往下滑找到【App Store&iTunes US】礼品卡,按需要的金额购买即可,建议先买 20 刀。然后进行以下操作: 支付宝购买礼品卡。 在 apple store 中兑换礼品卡。 在 chatgpt 中购买订阅 gpt plus,如果中途不想继续订阅了,可到订阅列表中取消订阅。 完成上述步骤后,就可以开始使用 ChatGPT 4 了。需要注意的是,在国内使用相关服务可能存在法律风险和技术限制,请谨慎操作。
2025-03-30
GPT 4o
GPT4o 是突破深度学习界限的最新成果,朝着实用可用性方向发展。过去两年致力于提高堆栈各层效率,使得能更广泛提供 GPT4 级别模型,其功能将迭代推出。 文本和图像功能已在 ChatGPT 中推出,在免费套餐中提供,并向 Plus 用户提供高达 5 倍的消息限制,未来几周将在 ChatGPT Plus 中推出带有 GPT4o 的新版本语音模式。 开发者可在 API 中作为文本和视觉模型访问 GPT4o,它比 GPT4 Turbo 快 2 倍,价格减半,速率限制高 5 倍。 在安全挑战和评估方面: 在第二个旨在涵盖风险建议(如攻击规划)的红队评估数据集中,GPT4.5 有 46%的输出是安全的,优于 GPT4o 的 40%,但低于深度研究的 67%或 o1 的 68%。 对 GPT4.5 与 GPT4o 和 o1 进行了一系列不允许内容的评估,包括标准拒绝评估、具有挑战性的拒绝评估、WildChat(有毒)和 XSTest 等,评估使用自动评分器,检查“not_unsafe”(未产生不安全输出)和“not_overrefuse”(未过度拒绝良性请求)两个主要指标,发现 GPT4.5 总体上与 GPT4o 相当。
2025-03-29
GPT4o图片生成能力
GPT4o 是 OpenAI 推出的一种先进的图像生成模型,具有以下能力和特点: 1. 核心功能: 是一种先进的多模态模型,能够生成精确、真实感强的图像。 其图像生成功能不仅美观,还具有实际用途,例如白板演示、科学实验图解等。 2. 亮点功能: 精确的文本渲染:能够在图像中准确生成文字,例如街道标志、菜单、邀请函等。 结合文本和图像,提升了视觉传达能力。 多样化场景生成:支持从照片级真实感到漫画风格的多种图像生成。 可根据用户上传的图像进行灵感转化或视觉改造。 上下文感知:能够利用 GPT4o 的内在知识库和对话上下文生成符合语境的内容。 3. 技术改进: 通过联合训练在线图像和文本的分布,模型学会了图像与语言之间以及图像之间的关系。 经过后期训练优化,模型在视觉流畅性和一致性方面表现出色。 4. 实际应用场景: 信息传递:从标志性图像到复杂的科学图表,帮助用户更有效地传达信息。 创意设计:生成创意菜单、街道标志和独特的视觉故事。 教育与演示:支持生成教学图表、实验示意图等。 5. 局限性:尽管生成能力强,但仍可能存在某些场景或细节的限制。 6. 安全性与可用性:OpenAI 强调了安全性和隐私保护。目前该功能已集成到 ChatGPT 中,用户可直接体验。 此外,GPT4o 图像生成模型整合进了 4o 模型中,基于多模态训练,能够结合文本和图像的上下文,生成更智能、更逼真一致的视觉内容,并支持用户通过自然对话对其进行编辑调整和优化。它不仅能提供传统的图像生成,还可以生成更复杂的图像,包括插图、图表、PPT 元素、logo、游戏角色设计等。
2025-03-28
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
runway属于什么ai能力类型
Runway 是一家总部位于旧金山的 AI 创业公司推出的产品。 在 AI 能力类型方面: 年初爆火,其 Gen2 代表了当前 AI 视频领域最前沿的模型,能够通过文字、图片等方式生成 4 秒左右的视频。 内测能力可根据参考图像进行 Video to Video 视频风格化。 致力于专业视频剪辑领域的 AI 体验,同时也在扩展图片 AI 领域的能力。 11 月 25 日发布新图像生成模型 Frames,专注打造特定美学和视觉氛围,支持细粒度控制“外观、感觉和氛围”,强调“世界构建”,可设计完整的视觉世界,包括场景、氛围、情感等,提供全面的视觉叙事支持。 目前 Runway 支持在网页、iOS 访问,网页端目前支持 125 积分的免费试用额度(可生成约 105 秒视频),iOS 则有 200 多,两端额度貌似并不同步。官方网站:https://runwayml.com/
2025-04-15
runway的能力类型,核心功能
Runway 的能力类型和核心功能包括以下方面: 在 Gen2 模型上推出了较多细节控制能力,并且支持精细数值调节,是当下 AI 视频生成产品中可控性最强的产品。 多笔刷控制局部运动:支持最多 5 个笔刷控制,包括物体运动方向、运动曲线调节。调高 Ambient,笔刷绘制区域物体的运动将和周边环境产生更多关联,并加大运动幅度。 相机控制:支持水平/垂直平移,水平/垂直翻转,镜头缩放/旋转。 Lip Sync Video:支持文本转 TTS 音频、音频文件换音,还有上半年大火的 Lip sync video 对口型能力。 不论是工具栏中不断丰富的音频、视频处理能力,还是 Runway Watch 栏目中的优秀合作案例,都能看出 Runway 一直坚定得在影视制作方向发展。未来若能打通 AI 生成和视频剪辑能力,Runway 未来将对影视制作起到至关重要的作用,成为视频领域必不可少的重要工具。
2025-04-15
你都有什么能力呢?
我作为 AI 知识专家,具备以下能力: 1. 作为提示词专家,能将常规的提示词转化为结构化的提示词,并输出符合预期的回复。了解 LLM 的技术原理和局限性,具有丰富的自然语言处理经验,具备迭代优化能力。 2. 能为您介绍小白参与活动的流程和组队所需的人员类型,如脚本编写、出图、出视频、配音乐、剪辑、统筹等。 3. 为您讲解扣子提供的基础功能,包括提示词(设定 Bot 身份及回复逻辑)、插件(通过 API 连接集成平台和服务)、工作流(规划和实现复杂功能逻辑)、记忆库(保留和理解对话细节,添加外部知识库),并为您提供相关参考链接。
2025-04-14
2025年人工智能大模型的技术提升有哪些,是参数?推理能力?还是语料
2025 年人工智能大模型的技术提升可能体现在以下几个方面: 1. 视频生成能力:如 2024 年推出的多个先进的 AI 模型能够从文本输入生成高质量视频,相比 2023 年有显著进步。 2. 模型规模与性能:更小的模型能驱动更强的性能,如 2022 年最小能在 MMLU 上得分高于 60%的模型是具有 5400 亿参数的 PaLM,到 2024 年,参数仅 38 亿的微软 Phi3mini 也能达到相同阈值。 3. 推理能力:尽管加入了如思维链推理等机制显著提升了大语言模型的性能,但在一些需要逻辑推理的问题上,如算术和规划,尤其在超出训练范围的实例上,这些系统仍存在问题。 4. AI 代理:在短时间预算设置下,顶级 AI 系统得分高于人类专家,但随着时间预算增加,人类表现会超过 AI。 5. 算法变革:如 DeepSeek 的出现标志着算力效率拐点显现,其通过优化算法架构显著提升了算力利用效率,同时 2025 年发布的大模型呈现低参数量特征,为本地化部署到 AI 终端运行提供了可能,其训练过程聚焦于强化学习,提升了模型的推理能力。
2025-04-14
有哪些针对CoT能力的微调工具
以下是一些针对 CoT 能力的微调工具: 1. Selfconsistency CoT:使用手动设计的 Prompt 生成采样一组不同的推理路径,再通过“多数投票”找到推理步骤中“最一致”的路径,使用这条解码路径驱动原始的贪心解码方式来提示 CoT 性能。 2. MMCoT:侧重使用微调方法嵌入 CoT,通过将语言和图像合并在一个包含推理生成与答案推理的两阶段的框架中,使用微调大模型赋予输入多模态 CoT 的能力。 3. GoTInput 方法:通过对 CoT 生成的思维图进行抽取构建三元组,并使用 GNN 将文本、图像与 CoT 统一,从而生成包含 CoT 信息的最终答案。 4. VCoT:解决了一个输出多模态的问题,通过以生成图片的“标题”以及识别核心关注点作为图像生成的启动过程,通过递归的方式填充图像信息,从而实现输出多模态。 此外,在将 DoT 扩展到预训练的扩散语言模型 Plaid 1B 并在更复杂的推理任务上进行评估时,自回归模型和扩散模型在使用 CoT 或 DoT 进行微调时都显示出显著提高的性能。在微调 Plaid 1B 时,也探索了几种替代方案。 在强化学习驱动的合成数据生成与模型优化流程中,也涉及到 CoT 的相关应用和优化,如初始 CoT 生成、CoT 存储等。
2025-04-12