Chat with Wiki - 自动化模拟操作

Answer

以下是关于自动化模拟操作的相关信息：

智谱的 AutoGLM 目前处于内测阶段，申请入口在智谱清言 APP 中，直接跟 AutoGLM 内测申请小助手对话提交申请即可。智谱将传统表单的提交通过 Tools 的方式做到了对话中，提升了体验。目前该应用只能在安卓设备上使用，因为数据的获取和操作是通过安卓的无障碍权限来控制的。无障碍服务是一套可以模拟操作的系统级别的 API，用户同意应用获取无障碍服务的权限之后就可以模拟操作，来控制用户的手机。无障碍被广泛用于抢红包、自动回复、一键获取权限等应用中。但开启无障碍服务后，可能会引起手机卡顿和存在隐私问题。登录 AutoGLM 后的第一件事是引导开启无障碍权限和悬浮球权限，权限授权正常后可进入首页。

GPT-4V-Act 是一个多模态 AI 助手，能够像人类一样模拟通过鼠标和键盘进行网页浏览。它可以模拟人类浏览网页时的行为，如点击链接、填写表单、滚动页面等。通过视觉理解技术识别网页上的元素，目的是让 AI 能够自动完成一些需要人工操作的任务，从而提高工作效率。其主要特点包括视觉处理（支持程度有限）、自动标记（使用 JS DOM 自动标记器为 UI 元素分配数字 ID，支持 COCO 数据格式的导出）、鼠标和键盘操作（能够执行点击和输入字符操作），但目前不支持输入特殊键码、滚动、提示用户提供更多信息、记住与任务相关的信息等功能。

AI Agent 要做好的核心是 Tools，如果想让 Agent 变得有用，需要解决 Tools 的问题。像荣耀的手机自动驾驶、智谱的 AutoGLM 采用类似 RPA 的方式模拟人类操作，不用跟应用厂家直接对接。

Content generated by AI large model, please carefully verify (powered by aily)

References

【智谱AutoGLM】深度体验报告及原理分析

不过真的想把这个事情做好，其实挺难，在智谱的AutoGLM发布前，我看过了很多实现甚至自己动手做过，不管是Paper、PPT还是Demo都没一个能打的。AutoGLM两天的深度测试下来，虽然还有许多不完美的地方，但我仍旧愿意写一篇文章来夸它，因为它的确让很多人对AI Agent落地可用重新燃起了希望，迈进了很大的一步。[heading3]下来就让我一遍分享测试过程，一遍试着分析实现原理，带大家一起来体验一下AutoGLM。[heading2]注册&权限[content]AutoGLM目前还处于内测阶段，申请入口在智谱清言APP中，直接跟AutoGLM内测申请小助手对话提交申请即可。(智谱把传统表单的提交通过Tools的方式做到了对话中，体验提升很多，顺便赞一个。我们以前在做拟人客服的时候也用到了这样的思路，对话式的交互，从自然语言中提取信息并通过Tools提交，更像是跟人类在交流，而不是冰冷的表单。)目前只能在安卓设备上使用，iOS应该很长时间内都不会支持。因为数据的获取和操作，都是通过安卓的无障碍权限来控制的。无障碍服务（AccessibilityService）是一套可以模拟操作的系统级别的API。用户同意我们的应用获取无障碍服务的权限之后就可以模拟操作，来控制用户的手机。无障碍被广泛用于抢红包、自动回复、一键获取权限等应用中。但是开启了无障碍服务之后，因为需要实时监控手机，理论上是会引起手机的卡顿的，另外一个就是隐私问题。所以在登录AutoGLM后的第一件事情就是引导你去开启无障碍权限和悬浮球权限，不然就没有办法继续体验。在权限授权正常之后，你就会进入到首页。

Han：基于现有能力项目应用的思考

|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||GPT-4V-Act：一个多模态AI助手，能够像人类一样模拟通过鼠标和键盘进行网页浏览。|基于AI的能力+项目目标人群+服务内容类型=以后互联网项目产品的原型设计自动化生成的效果会更符合用户使用习惯，同时以后广告位的出现的位置和时机，频率也更有效果。|AI学习模型|它可以模拟人类浏览网页时的行为，如点击链接、填写表单、滚动页面等。 它通过视觉理解技术识别网页上的元素，就像人眼一样，能够“看到”按钮、文本框、图片等，并理解它们的功能和用途。 这个工具的目的是让AI能够自动完成一些需要人工操作的任务，从而提高工作效率，帮助人们更容易地使用各种网页界面。|主要特点： 1、视觉处理：能够处理视觉信息，但支持程度有限。 2、自动标记：使用JS DOM自动标记器为UI元素分配数字ID，支持COCO数据格式的导出。 3、鼠标和键盘操作：能够执行点击和输入字符操作。 4、特殊键码输入：目前还不支持输入特殊键码（如回车、页面上移、页面下移）。 5、其他功能：滚动、提示用户提供更多信息、记住与任务相关的信息等功能也尚未支持。|工作原理： GPT

【智谱AutoGLM】深度体验报告及原理分析

我不常写智谱，因为智谱总是默默地在埋头研究技术，也不给商单。上一次写还是在一年前GLMs发布的时候，结果那篇文章写的是GLMs，最先做出来的却是Coze。[从GPTs/GLMs如何赚钱谈起：AI应用的曙光在哪？](http://mp.weixin.qq.com/s?__biz=MzIzMjAxMzYyNQ==&mid=2653601438&idx=1&sn=4ab61b40f5044531083d8a1fc093cd4c&chksm=f34574c8c432fddeaa1b6754f14f5a153622b6d2ecd240a6253901ebb270033dfc76f3e4c9d2&scene=21#wechat_redirect)AI Agent要做好的核心是Tools，如果想让Agent变得有用，用户想要用，那么核心要解决的其实是Tools的问题，把跟用户日常使用、常用的东西都做成工具接入到Agent里，它才能变得有用和好用。但是这个事情基本不可能，微信会给接口么？淘宝会？还是美团点评小红书会？都不会。要么各大内容平台自己下场做，字节做了，支付宝也做了（小程序），微信不知道会不会，但他们也只能在是自己的生态中去做，其它的厂家可能都比较难。不过其实还有另外一种通过类似RPA的方式去做，比如荣耀的手机自动驾驶，智谱的AutoGLM，模拟人类操作，不用跟应用厂家去直接对接，你省事我也省事，拒绝无障碍服务的话可能又会误伤其它用户，厂家也会掂量掂量。