Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

OpenAI Operator, Anthropic Claude Coder

Answer

以下是关于 OpenAI Operator 和 Anthropic Claude Coder 的相关信息:

2025 年 Agent 领域的发展预测:

  • 从对话助手到行动型智能体是 2025 年 Agent 技术的主流发展方向之一。计算机操作能力取得突破,传统大模型更多充当聊天助手,而 2025 年的突破在于让 Agent 直接“动手”操作电脑和网络环境。
    • Anthropic 在 2024 年底发布的 Claude 3.5 Sonnet 首次引入“Computer Use”能力,让 AI 像人一样通过视觉感知屏幕并操作鼠标键盘,实现了 AI 自主使用电脑的雏形。
    • OpenAI 在同期推出了代号“Operator”的 Agent 及其核心模型“计算机使用智能体”(CUA),使 GPT-4 获得直接与图形界面交互的能力。CUA 通过强化学习将 GPT-4 的视觉能力与高级推理相结合,训练 AI 可像人一样点击按钮、填表、滚动页面等。在 OpenAI 的测试中,CUA 在浏览器任务基准 WebArena 和 WebVoyager 上分别达到 38.1%和 87%的成功率,后者已接近人类水平。

其他相关信息:

  • 宝玉日报 1 月 25 日:
    • Deepseek 提示词框架包含四大模块:任务目的(Purpose)、计划规则(Planning Rules)、格式规则(Format Rules)、输出说明(Output)。
    • Anthropic 的 Claude 可通过屏幕截图获取计算机视觉信息,计算光标移动的像素坐标,并执行点击、滚动等操作。
    • OpenAI Operator 利用虚拟主机和 Chrome 浏览器,通过 CUA 实现网页实时操作,支持复杂任务导航。

主要的大语言模型:

  • OpenAI 系统包括 3.5 和 4 等,3.5 模型在 11 月启动了当前的 AI 热潮,4.0 模型在春季首次发布,功能更强大。新的变种使用插件连接到互联网和其他应用程序。Code Interpreter 是一个非常强大的 ChatGPT 版本,可以运行 Python 程序。未为 OpenAI 付费只能使用 3.5。微软的 Bing 使用 4 和 3.5 的混合,通常是 GPT-4 家族中首个推出新功能的模型,连接到互联网。
  • 谷歌一直在测试自己的人工智能 Bard,由各种基础模型驱动,最近是 PaLM 2 模型。
  • Anthropic 发布了 Claude 2,其最值得注意的是有一个非常大的上下文窗口。
Content generated by AI large model, please carefully verify (powered by aily)

References

[趋势研究] 对比DR/AutoGLM - 2025年Agent领域的发展预测

计算机操作能力突破。传统的大模型更多充当聊天助手,回答问题或提供建议,而2025年的突破在于让Agent直接“动手”操作电脑和网络环境。Anthropic在2024年底发布的Claude 3.5 Sonnet首次引入“Computer Use”能力,即让AI像人一样通过视觉感知屏幕并操作鼠标键盘,从而在公开测试中实现了AI自主使用电脑的雏形。OpenAI在同期也推出了代号“Operator”的Agent及其核心模型“计算机使用智能体”(CUA),使GPT-4获得直接与图形界面交互的能力。CUA通过强化学习将GPT-4的视觉能力与高级推理相结合,训练AI可像人一样点击按钮、填表、滚动页面等。在OpenAI的测试中,CUA在浏览器任务基准WebArena和WebVoyager上分别达到38.1%和87%的成功率,后者已接近人类水平。这表明AI从“会对话”进化到“会操作”,迈出了关键一步。OpenAI的Operator现已作为研究预览提供给高端专业用户使用,每月订阅费用$200。尽管目前使用门槛较高,但官方计划逐步将此功能推广至普通Plus用户并集成进ChatGPT主界面。在Operator的演示中,用户只需提出诸如“帮我在网站上预订最高评价的罗马一日游”的任务,Agent就能自主打开浏览器、搜索并浏览旅游网站,下单预订相应产品。这种“行动型AI”**预示着未来数字助理将不仅能给出建议,而且可以直接“去做”,大幅拓宽了AI的应用边界。

宝玉 日报

?宝玉日报「1月25日」1⃣️?Deepseek提示词框架:包含四大模块:任务目的(Purpose)、计划规则(Planning Rules)、格式规则(Format Rules)、输出说明(Output)。该框架侧重清晰的任务分解与规则定义,但作者建议不要过度依赖框架,更重视上下文与任务简化。示例模板清晰描述了开发者背景、任务目标与规则细节。?[https://x.com/dotey/status/1883041528408318382](https://x.com/dotey/status/1883041528408318382)2⃣️?️Anthropic的“计算机使用”能力模型:Claude可通过屏幕截图获取计算机视觉信息,计算光标移动的像素坐标,并执行点击、滚动等操作。该模型结合了图像识别、推理和动作能力,可将用户指令转化为逻辑步骤并执行任务。经过少量软件训练后,Claude展现了快速适应和问题自我纠正的能力。?[https://x.com/richards_19999/status/1883006846656790898](https://x.com/richards_19999/status/1883006846656790898)?[https://x.com/dotey/status/1883009692852519062](https://x.com/dotey/status/1883009692852519062)3⃣️?OpenAI Operator的工作机制:Operator利用虚拟主机和Chrome浏览器,通过CUA实现网页实时操作,支持复杂任务导航。CUA的能力来源于GPT-4o的视觉处理和强化学习,能够处理屏幕截图、推理操作并生成屏幕控制指令。使用链式思考(CoT)迭代感知、推理、动作循环,完成操作或请求用户确认敏感任务。

如何使用 AI 来做事:一份带有观点的指南

前四个(包括Bing)都是OpenAI系统。今天有两大主要的OpenAI AI:3.5和4。3.5模型在11月启动了当前的AI热潮,4.0模型在春季首次发布,功能更强大。一个新的变种使用插件连接到互联网和其他应用程序。有很多插件,其中大部分不是很有用,但你应该随需要自由探索它们。Code Interpreter是一个非常强大的ChatGPT版本,可以运行Python程序。如果您从未为OpenAI付费,那么您只能使用3.5。除了插件变种和一个暂时停用的带有浏览功能的GPT-4版本之外,这些模型都没有连接到互联网。微软的Bing使用4和3.5的混合,通常是GPT-4家族中首个推出新功能的模型。例如,它既可以创建也可以查看图像,而且它可以在网页浏览器中阅读文档。它连接到互联网。[Bing使用有点奇怪,但功能强大。](https://oneusefulthing.substack.com/p/power-and-weirdness-how-to-use-bing)谷歌一直在测试自己的人工智能供消费者使用,他们称之为Bard,但是由各种基础模型驱动,最近是一个名叫PaLM 2的模型。对于开发出LLM技术的公司来说,他们非常令人失望,尽管昨天宣布的改进表明他们仍在研究基础技术,所以有希望。它已经获得了运行有限代码和解释图像的能力,但我目前通常会避免它。最后一家公司Anthropic发布了Claude 2。Claude最值得注意的是有一个非常大的上下文窗口-本质上是LLM的记忆。Claude几乎可以保存一整本书或许多PDF。与其他大型语言模型相比,它不太可能恶意行事,这意味着,在实际上,它倾向于对你做一些事情进行责骂。现在,来看看一些用途:

Others are asking
Claude Artifacts是什么
Claude Artifacts 是由 Claude 推出的一项工具。它具有将前端代码直接渲染成网页的功能,在前端代码生成能力方面表现出色。例如,可以借助 Claude 的 Artifact 功能制作海报、思维导图等,用户无需编写代码或使用专业设计软件,仅通过与 Claude 对话并输入提示词,就能生成符合需求的内容。目前关于 Claude Artifacts 的探索文章相对较少,但其具有代码跑通率高、设计美感好等特点,还能实现动态生成的效果。
2025-04-01
怎么写给 Claude 的 prompts
以下是关于如何写给 Claude 的 prompts 的相关内容: 1. 提示简介:提示是您给 Claude 的文本,用于引发相关输出,通常以问题或指示的形式出现。例如,“User|Why is the sky blue? 为什么天空是蓝色的?”,Claude 回答的文本被称为“响应”,有时也被称为“输出”或“完成”。 2. 构建 Prompt:可以用 Lisp 或 Markdown 格式来构建 prompt,让 Claude 根据用户输入的领域和产品(也可自定义产品特点)直接输出情绪营销语句。用 Lisp 这种编程语言更为凝练和简洁,Markdown 格式的效果也一样。对于 GPT 等模型,在卡片生成这步可能需要一些调整,不稳定,最好自定义 html/css 样式来进行强约束。直接打开 Claude 首页,把上述提示词发送即可初始化,然后进行使用。 3. 控制输出格式(JSON 模式):控制 Claude 输出的简单方法之一是说明想要的格式,Claude 可以理解并遵循与格式相关的指示,并格式化输出,如 JSON、XML、HTML、Markdown、CSV 等,甚至自定义格式。例如,如果想让 Claude 以 JSON 格式生成一首俳句,可以使用相应的提示。
2025-03-28
OpenAI o1、Claude Sonnet 3.7、Gemini 2.0 pro 哪个 AI 搜索能力更强?
OpenAI o1、Claude Sonnet 3.7 和 Gemini 2.0 pro 在不同方面具有各自的优势,难以简单地比较哪个的搜索能力更强。 OpenAI o1 推理能力强,适合作为架构师或算法顾问。 Claude Sonnet 3.7 擅长长上下文任务,在快速生成代码与网页设计方面表现出色。 Gemini 2.0 pro 长上下文支持较好(2M Tokens),适合代码反编译与混淆代码分析。 具体的搜索能力表现还会受到应用场景和具体任务的影响。
2025-03-21
以DeepSeek R1为代表的推理模型,与此前模型(如 ChatGPT-4、Claude 3.5 sonnet、豆包、通义等)的差异点主要在于
以 DeepSeek R1 为代表的推理模型与此前模型(如 ChatGPT4、Claude 3.5 sonnet、豆包、通义等)的差异点主要在于: 1. 技术路线:DeepSeek R1 与 OpenAI 现在最先进的模型 o1、o3 一样,属于基于强化学习 RL 的推理模型。 2. 思考方式:在回答用户问题前,R1 会先进行“自问自答”式的推理思考,模拟人类的深度思考,从用户初始问题出发,唤醒所需的推理逻辑与知识,进行多步推导,提升最终回答的质量。 3. 训练方式:在其他模型还在接受“填鸭式教育”时,DeepSeek R1 已率先进入“自学成才”的新阶段。 4. 模型制作:R1 是原生通过强化学习训练出的模型,而蒸馏模型是基于数据微调出来的,基础模型能力强,蒸馏微调模型能力也会强。此外,DeepSeek R1 还能反过来蒸馏数据微调其他模型,形成互相帮助的局面。 5. 与 Claude 3.7 Sonnet 相比,Claude 3.7 Sonnet 在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色,扩展思考模式在数学和科学领域带来显著提升,在某些方面与 DeepSeek R1 各有优劣。
2025-03-19
trad 如何添加Claude Sonnet 3.7 模型
要在 Trae 中添加 Claude Sonnet 3.7 模型,您可以按照以下步骤操作: 1. 下载 Trae:链接为 https://sourl.co/2DCmmW 。 2. 安装 Trae 后,自动进入 Trae 的客户端。 3. 查看对话框右下角,可以看到三种大模型的选择,其中包括 Claude3.5Sonnet、Claude3.7Sonnet、GPT4o 。 Claude 3.7 Sonnet 是一个混合推理模型,与市面上其他推理模型有所不同。它分为普通模式和扩展(推理)模式,可通过下拉菜单切换。普通模式是升级版的 Claude 3.5 Sonnet,回答迅速流畅;扩展模式适用于数学、物理、编程、复杂分析等场景,会进行思维链展开和推理。但需要注意的是,在 Trae 中切换模式是通过新窗口实现的。
2025-03-17
Claude
以下是关于 Claude 的相关信息: 1. 一位 17 岁的高中生涂津豪写了个名为 Thinking Claude 的神级 Prompt,将 o1 级别的思维链复刻到了 Claude3.5 里,使其智能程度、成功率和像人的程度大幅提升。可以在作者的 Github 上查看完整 Prompt,地址是:https://github.com/richards199999/ThinkingClaude/tree/main 。 2. 预先填充 Claude 的回答:要预先填充 Claude 的回应,只需在进行 API 请求时在 Assistant 消息中包含所需的初始文本。例如:|Role|Good Prompt| |User|Please extract the name,size,price,and color from this product description and output it within a JSON object.<br>请从此产品描述中提取名称、尺寸、价格和颜色,并在 JSON 对象中输出。<br><br><description>The SmartHome Mini is a compact smart home assistant available in black or white for only$49.99.At just 5 inches wide,it lets you control lights,thermostats,and other connected devices via voice or app—no matter where you place it in your home.This affordable little hub brings convenient handsfree control to your smart devices.</description><br><description>SmartHome Mini 是一款紧凑的智能家居助手,有黑色或白色可选,售价仅为$49.99。仅 5 英寸宽,让您可以通过语音或应用程序控制灯光、恒温器和其他连接设备,无论您将其放在家中的哪个位置。这款价格实惠的小中心为您的智能设备带来了便利的免提控制。| |Assistant助手(预先填充)|{ 。 3. 要求 Claude 进行重写:有时候 Claude 的回答可能不完全准确或符合要求,在以下情况可以要求重写,如响应接近所需但缺乏具体细节或格式、输出未完全遵循初始提示的约束条件、不确定结果是否准确希望双重检查。重写在提示包含多个约束时特别有用,请求重写可强调 Claude 最初忽略的约束的重要性。
2025-03-06
OpenAI总融资额是多少
OpenAI 的总融资额有所不同。根据相关报道,OpenAI 完成了 66 亿美元的融资,总筹资已达 130 亿美元,公司估值达 1570 亿美元。本轮融资由 Thrive Capital 领投,Tiger Global 和软银等参与。
2025-02-03
OpenAI过去12天的发布会总结
以下是 OpenAI 过去 12 天发布会的总结: 自媒体记录方面: 夕小瑶科技说:o3 发布,可能影响码农工作。 孔某人的低维认知:OpenAI 圣诞 12 天总评,感谢大佬赏饭。 MAX 01Founder:一文详解 o3,虽接近 AGI 但使用成本高。 南瓜博士:使用 o3 钱包和脑子可能不够。 数字生命卡兹克:OpenAI 正式发布 o3,通往 AGI 路上已无障碍。 具体发布内容: Day12:o3 与 o3 mini 正式亮相。 Day11:ChatGPT 桌面应用,Option+空格快速唤起。 Day10:OpenAI 发布电话倾诉功能 18002428478。 Day9:o1 满血版 API 和 4o 实时语音 API 更新。 Day8:AI 搜索功能免费开放,并支持实时语音搜索。 Day7:ChatGPT 全新“项目”功能发布。 Day6:实时视频通话&圣诞老人模式正式上线。 Day5:ChatGPT 与 Apple 的深度合作。 Day4:直播“翻车”的 Canvas。 Day3:Sora 终于上线,有案例和功能详解。 Day2:微调 O1 模型,低成本高效率。 Day1:强化学习微调的实操案例。 宝玉日报 12 月 18 日: AI 架构与技术选型的 4 条原则:选主流框架、确保测试覆盖率、避免私有框架、采用模块化设计。 OpenAI 12 天发布会第 9 天:o1 API 正式版速度更快成本降低,支持多种新功能;语音交互升级,引入 WebRTC 支持,处理费用降低;新增偏好微调功能和工具包,简化 API 密钥申请流程。 易观分析报告预测了 AI 技术未来的关键发展方向,德邦证券报告对 OpenAI 十二日发布会进行深度总结,认为随着大模型能力提升和应用场景扩展,AI 应用商业价值有望实现,建议关注相关领域。
2024-12-31
OpenAI前六场发布会的内容提炼
以下是 OpenAI 前六场发布会的部分内容提炼: OpenAI 第六天发布会:ChatGPT 的高级语音模式获得公开访问权限,能通过自然语音与用户对话并理解屏幕内容,降低使用门槛,展示多模态能力和个性化发展潜力。 相关报告:甲子光年发布的《2024 人工智能产业 30 条判断——万千流变,一如既往》涵盖 AI 技术历史发展、当前趋势和未来预测,提到 Transformer 模型和 GPT 系列发展及在多行业应用,探讨了 AI 芯片进步、在科学研究中的角色和对社会的广泛影响,还预测了 AI 产业增长。中信建投证券的海外 AI 应用行业专题《旧金山草根调研与海外 AI 应用进展》长达 100 多页,聚焦旧金山草根调研及海外 AI 应用进展,显示旧金山及硅谷地区 AI 企业众多,AI 应用在 To B 场景如广告、助手、数据分析等领域受关注,长期看好,尤其是 C 端应用潜力,列举了多家公司及其业务领域、功能进展,并提供相关上市公司数据。 OpenAI 首届开发者大会:短短 45 分钟发布会,Sam Altman 表示团队对开发者关注的问题做了六大升级,包括更长的上下文长度、更强的控制、模型的知识升级、多模态、模型微调定制和更高的速率限制,前四条主要关于新模型性能提升,后两点针对企业开发者痛点,同时宣布 API 价格下调。
2024-12-17
OpenAI Plus 注册与登入
以下是关于 OpenAI Plus 注册与登入的相关信息: 注册谷歌账号: 1. 电脑打开谷歌网站:https://accounts.google.com/,点击创建账号。 2. 选择个人用途。 3. 填写姓名(避免中文、拼音,尽量用英文名字,姓可以不填)。 4. 填写年龄性别(最好大于 18 岁)。 5. 填写账号名称。 6. 设置密码(大小写字母+数字)。 7. 手机短信验证,有一定概率跳到接收短信验证,这里填我们国内的号码就可以。 8. 填写辅助邮箱(可用国内邮箱)。 9. 确认账户信息,点击下一步。 10. 拉到最底部,点我同意。 11. 点击确认开启个性化设置后即可完成注册。 注册 ChatGPT 账号: 1. 打开 ChatGPT 的官网:https://chat.openai.com/,点击注册按钮。 2. 点击用 Google 账号登录。 3. 输入刚注册的谷歌邮箱,点击下一步。 4. 输入密码,点击下一步。 5. 确认用谷歌账号作为 ChatGPT 账号登录。 6. 然后会跳转到 OpenAI 的网页,填写名字跟出生日期(也要确保年龄在 18 岁以上),点击 Agr。 7. 完成注册。 GPT4 Vision 目前(截至 2023 年 10 月)仅适用于 ChatGPT Plus 和企业用户。ChatGPT Plus 每月收费 20 美元,可以从您的常规免费 ChatGPT 帐户升级到。访问 GPT4 Vision 的方法: 1. 访问 OpenAI ChatGPT 网站并注册一个帐户。 2. 登录您的帐户并导航到“升级到 Plus”选项。 3. 继续升级以获得 ChatGPT Plus 的访问权限(注意:这是每月 20 美元的订阅费)。 4. 在聊天窗口中选择“GPT4”作为您的模型。 5. OpenAI chat with images。 6. 点击图片图标上传图片,并添加提示,指示 GPT4 执行。
2024-12-16
字节跳动也被曝出在其秘密研发的大模型项目中存在违规调用 OpenAI 的 API ,你如何看待
2023 年下半年,部分声称性能卓越的中国大模型被揭露为“套壳”产品。如李开复创办的“零一万物”被国外开发者质疑为“套壳”产品,其团队承认在训练过程中沿用了开源架构,但强调是为快速起步。12 月,字节跳动被曝出在其秘密研发的大模型项目中调用了 OpenAI 的 API 并使用 ChatGPT 的输出数据来训练自己的模型。OpenAI 反应迅速坚决,暂停相关账号并表示将进一步调查。字节跳动回应称在 2023 年初技术团队在大模型探索初期有部分工程师将 GPT 的 API 服务用于较小模型的实验性项目研究,且自 2023 年 4 月引入调用规范检查后已停止。此外,不仅国内存在此类现象,24 年也有更多被指“套壳”的事件。同时,提示词攻击在业内是公开的秘密,国内外各大著名的 AI 厂商几乎无一幸免,系统提示处于泄露状态,大模型应用脆弱,数据易被获取。
2024-11-03