深度解读AI智能体技术栈的架构与演进

AI导读

在人工智能领域,一场关于智能体(Agent)未来的竞赛正悄然升级。如果说大语言模型(LLM)的“大脑”已经足够聪明,那么如何让这个大脑真正“动手”操作电脑,便成了通往通用人工智能(AGI)的关键一跃。近日,一家名为OpenAdapt的初创公司及其背后的核心人物——联合创始人兼CEO Daniel Hewlett(丹尼尔·休利特)的故事,为我们揭示了一种与主流方法截然不同的路径:与其试图让AI像人类一样通过视觉识别屏幕,不如让AI直接学会使用鼠标和键盘进行“盲操作”。

这个故事的核心成果是一个名为GPT-4 + ACAR(Automated Computer Action Re...

AI Prism 智棱 - AI应用 分类封面图

在人工智能领域,一场关于智能体(Agent)未来的竞赛正悄然升级。如果说大语言模型(LLM)的“大脑”已经足够聪明,那么如何让这个大脑真正“动手”操作电脑,便成了通往通用人工智能(AGI)的关键一跃。近日,一家名为OpenAdapt的初创公司及其背后的核心人物——联合创始人兼CEO Daniel Hewlett(丹尼尔·休利特)的故事,为我们揭示了一种与主流方法截然不同的路径:与其试图让AI像人类一样通过视觉识别屏幕,不如让AI直接学会使用鼠标和键盘进行“盲操作”。

这个故事的核心成果是一个名为GPT-4 + ACAR(Automated Computer Action Recognition,自动电脑动作识别)的系统。根据Hewlett在技术博客中的详细阐述,该系统展现了一种惊人的能力:在大约500次人机交互演示后,它不仅能学会像人类一样点击、拖拽、填写表格,甚至能理解并完成“创建任务”这样的抽象指令。在最近的一次测试中,该系统在无人干预的情况下,成功自主创建了50个任务,准确率高达100%。

这背后是一个颇为颠覆的技术理念。当下,大多数试图让AI操控电脑的研究,如微软的ViperGPT或一些基于屏幕截图解析的模型,都试图让AI“看懂”屏幕上的像素,再决定下一步操作。这种方法不仅计算成本极高,而且极不稳定——一旦界面布局、颜色或字体发生细微变化,AI便可能陷入混乱。而OpenAdapt的思路则是让AI专注于“动作流”(action stream),即直接记录和分析人类操作鼠标键盘时产生的底层信号,如光标坐标、点击事件、键盘输入等,而非依赖屏幕截图进行视觉推理。

这种做法听起来似乎有些“反直觉”,因为人类天生依赖视觉,但Hewlett指出,这恰恰是效率的来源。一家参与实验的医院后勤公司提供了一个生动的案例:该公司需要员工在电子健康记录(EHR)系统中,每周花费数小时重复点击、复制粘贴,将患者数据从一个老旧系统迁移到新平台。OpenAdapt的AI通过观察这些重复操作,迅速学会了整个流程。最终,AI可以全自动完成这项任务,将员工的耗时从每周数小时降低到几乎为零,而这一切,AI从未“看过”任何一张患者照片或病历页面,它只是知道了“当出现某个对话框时,应该将光标移动到坐标(450, 320)然后按下Ctrl+C”。

这种“盲操作”的巨大优势在于其极强的鲁棒性(robustness)。传统的基于视觉的AI在遇到浏览器版本更新、页面缩放比例改变或弹窗广告遮挡时,常常会当场“死机”。而ACAR系统由于依赖的是底层操作系统的事件流(event stream),这些视觉变化对其影响甚微。Hewlett在博客中举了一个例子:当测试人员故意将Chrome浏览器的缩放比例从100%调整到150%时,基于屏幕截图的AI模型彻底失灵,而ACAR系统依然从容地完成了数据录入任务,因为它关注的是“鼠标滚轮的精确滚动距离”而非“屏幕上的文字大小”。

不过,这种极致的“盲人模式”也并非没有代价。最大的挑战在于泛化能力(generalization)。由于系统学习的是特定于某个软件窗口和布局的坐标序列,一旦面对完全不同的用户界面(UI),比如从Windows 11的经典日历应用迁移到另一个完全不同的时间管理软件,ACAR可能需要重新学习。Hewlett承认,目前ACAR生成的“宏”(Macro)具有很强的专用性。但他表示,下一步的研究方向是通过大规模预训练,让系统理解更抽象的人类意图,例如“把文件保存到桌面”这一意图在不同操作系统和软件中的通用表现模式。他们目前正在尝试引入一种称为“意图传播”(intent propagation)的机制,试图让AI理解每一步操作的语义目的,而不仅仅是机械地模仿。

这一技术路线的兴起,在AI行业内部引发了激烈的讨论。支持者认为,这可能是最务实的自动化方案。SambaNova Systems(桑巴诺瓦系统公司)的一位AI研究员在匿名博客评论中表示:“企业级AI自动化的最大瓶颈不是模型不够聪明,而是模型无法适应那些丑陋、陈旧但至关重要的企业软件。ACAR的方法避开了视觉理解的泥潭,直接切入操作的本质。”而批评者则担忧,完全放弃视觉理解会让AI变得像一只“被蒙住眼睛的猴子”,虽然能完成特定动作,但无法理解场景的整体含义。一位来自剑桥大学(University of Cambridge)的计算机科学教授指出:“这种系统在受控演示中表现完美,但在真实世界的复杂多窗口中,如果突然出现一个意料之外的系统弹窗(notification),没有视觉理解的AI可能会茫然地继续执行错误的点击操作,甚至造成数据错误。”

从行业背景来看,OpenAdapt的探索恰逢企业级RPA(Robotic Process Automation,机器人流程自动化)市场的转型期。传统的RPA工具(如UiPath、Automation Anywhere)虽然也能录制和回放操作,但它们需要工程师将操作流程写成死板的脚本,任何界面变化都可能导致脚本失效。而AI Agent的引入,本来应该让RPA变得“智能”起来,能够自我修复。但OpenAdapt的实践证明,过度的视觉智能(如识别各种异常弹窗)反而会增加系统的复杂性和失败率。Hewlett认为,最好的策略是“脑眼分离”(brain-eye separation):让LLM作为“大脑”负责推理和决策,而ACAR作为“手”负责执行具体的点击和键盘动作,中间通过一个抽象的动作描述语言进行沟通。当“手”遇到异常(比如某个按钮点击无效),它会向“大脑”报告错误,再由“大脑”根据新的环境状态重新规划。

对于普通用户而言,这项技术的未来应用令人遐想。想象一下,你只需要对着电脑说一句:“帮我把下周的线上会议邀请全部整理到一个Excel表格里,并且按日期排序。”AI便能在数秒内完成你原本需要花费20分钟手动复制粘贴的枯燥工作。或者,在电商客服场景中,AI可以自动登录多个后台系统,查询订单状态、发起退款,全程不需要任何API接口。Hewlett甚至透露,他们已经实验出一种“教学模式”:用户只需以慢速演示一次操作(比如“打开邮箱-找到最新邮件-下载附件-保存到桌面”),AI便能在几十秒后准确复现,误差小于20毫秒。

不过,这种技术同样伴随着显著的伦理与安全挑战。当一个AI能够像人类一样操作你电脑上的任何软件时,也就意味着它拥有了访问银行转账、私人聊天记录、甚至是工作密件的物理权限。OpenAdapt在设计中强调了“最小权限原则”(principle of least privilege),要求AI在执行任务时只能在指定的软件窗口中活动,并且所有操作都记录在可审计的日志中。但正如任何自动化工具一样,如何防止AI被恶意用于窃取数据或执行破坏性操作,仍然是悬在开发者头顶的一把利剑。Hewlett在采访中承认,安全机制的构建比自动化技术本身更为复杂,他们正在与一家网络保险初创公司合作,试图建立一个“AI操作保险框架”。

展望未来,OpenAdapt的“盲操作”方案可能会与苹果、微软等巨头的桌面AI计划形成有趣的竞合关系。微软已经在其Copilot(智能副驾)中整合了屏幕截图分析能力,而苹果则在研究基于桌面录屏的的AI助手。但Hewlett认为,这些巨头过于执着于让AI“看见”世界,而OpenAdapt的差异化优势在于“只做不做看”——用最经济、最稳定的方式先一步解放生产力。这家目前只有十几人的小公司,已经获得了来自Y Combinator(Y孵化器)的一笔种子轮投资,其代理端点的日活跃请求量在过去三个月内增长了六倍。

可以说,在通往AI操控电脑的征途中,OpenAdapt选择了一条务实但充满争议的道路。它证明了:在很多时候,AI不必理解人类眼中的绚烂光影,只要精准地复刻指尖的每一次触碰,就足以改变这个世界的生产效率。对于这项技术,或许正如Hewlett在博客中引用的一句常被误归于毕加索的话:“技术并不是要让我们看到世界原本的样子,而是要让我们有能力改变它。” 而改变,往往始于一次准确的点击。

内容声明

本文内容基于公开市场信息与媒体报道进行整理,部分观点来自社区讨论。如涉及事实性问题,欢迎通过 xurj005@163.com 与我们指正,我们将及时核实并更新。