深度解读AI智能体技术栈的架构与演进

在人工智能领域，一场关于智能体（Agent）未来的竞赛正悄然升级。如果说大语言模型（LLM）的“大脑”已经足够聪明，那么如何让这个大脑真正“动手”操作电脑，便成了通往通用人工智能（AGI）的关键一跃。近日，一家名为OpenAdapt的初创公司及其背后的核心人物——联合创始人兼CEO Daniel Hewlett（丹尼尔·休利特）的故事，为我们揭示了一种与主流方法截然不同的路径：与其试图让AI像人类一样通过视觉识别屏幕，不如让AI直接学会使用鼠标和键盘进行“盲操作”。

这个故事的核心成果是一个名为GPT-4 + ACAR（Automated Computer Action Recognition，自动电脑动作识别）的系统。根据Hewlett在技术博客中的详细阐述，该系统展现了一种惊人的能力：在大约500次人机交互演示后，它不仅能学会像人类一样点击、拖拽、填写表格，甚至能理解并完成“创建任务”这样的抽象指令。在最近的一次测试中，该系统在无人干预的情况下，成功自主创建了50个任务，准确率高达100%。

这背后是一个颇为颠覆的技术理念。当下，大多数试图让AI操控电脑的研究，如微软的ViperGPT或一些基于屏幕截图解析的模型，都试图让AI“看懂”屏幕上的像素，再决定下一步操作。这种方法不仅计算成本极高，而且极不稳定——一旦界面布局、颜色或字体发生细微变化，AI便可能陷入混乱。而OpenAdapt的思路则是让AI专注于“动作流”（action stream），即直接记录和分析人类操作鼠标键盘时产生的底层信号，如光标坐标、点击事件、键盘输入等，而非依赖屏幕截图进行视觉推理。

这种做法听起来似乎有些“反直觉”，因为人类天生依赖视觉，但Hewlett指出，这恰恰是效率的来源。一家参与实验的医院后勤公司提供了一个生动的案例：该公司需要员工在电子健康记录（EHR）系统中，每周花费数小时重复点击、复制粘贴，将患者数据从一个老旧系统迁移到新平台。OpenAdapt的AI通过观察这些重复操作，迅速学会了整个流程。最终，AI可以全自动完成这项任务，将员工的耗时从每周数小时降低到几乎为零，而这一切，AI从未“看过”任何一张患者照片或病历页面，它只是知道了“当出现某个对话框时，应该将光标移动到坐标(450, 320)然后按下Ctrl+C”。

这种“盲操作”的巨大优势在于其极强的鲁棒性（robustness）。传统的基于视觉的AI在遇到浏览器版本更新、页面缩放比例改变或弹窗广告遮挡时，常常会当场“死机”。而ACAR系统由于依赖的是底层操作系统的事件流（event stream），这些视觉变化对其影响甚微。Hewlett在博客中举了一个例子：当测试人员故意将Chrome浏览器的缩放比例从100%调整到150%时，基于屏幕截图的AI模型彻底失灵，而ACAR系统依然从容地完成了数据录入任务，因为它关注的是“鼠标滚轮的精确滚动距离”而非“屏幕上的文字大小”。

不过，这种极致的“盲人模式”也并非没有代价。最大的挑战在于泛化能力（generalization）。由于系统学习的是特定于某个软件窗口和布局的坐标序列，一旦面对完全不同的用户界面（UI），比如从Windows 11的经典日历应用迁移到另一个完全不同的时间管理软件，ACAR可能需要重新学习。Hewlett承认，目前ACAR生成的“宏”（Macro）具有很强的专用性。但他表示，下一步的研究方向是通过大规模预训练，让系统理解更抽象的人类意图，例如“把文件保存到桌面”这一意图在不同操作系统和软件中的通用表现模式。他们目前正在尝试引入一种称为“意图传播”（intent propagation）的机制，试图让AI理解每一步操作的语义目的，而不仅仅是机械地模仿。

这一技术路线的兴起，在AI行业内部引发了激烈的讨论。支持者认为，这可能是最务实的自动化方案。SambaNova Systems（桑巴诺瓦系统公司）的一位AI研究员在匿名博客评论中表示：“企业级AI自动化的最大瓶颈不是模型不够聪明，而是模型无法适应那些丑陋、陈旧但至关重要的企业软件。ACAR的方法避开了视觉理解的泥潭，直接切入操作的本质。”而批评者则担忧，完全放弃视觉理解会让AI变得像一只“被蒙住眼睛的猴子”，虽然能完成特定动作，但无法理解场景的整体含义。一位来自剑桥大学（University of Cambridge）的计算机科学教授指出：“这种系统在受控演示中表现完美，但在真实世界的复杂多窗口中，如果突然出现一个意料之外的系统弹窗（notification），没有视觉理解的AI可能会茫然地继续执行错误的点击操作，甚至造成数据错误。”

从行业背景来看，OpenAdapt的探索恰逢企业级RPA（Robotic Process Automation，机器人流程自动化）市场的转型期。传统的RPA工具（如UiPath、Automation Anywhere）虽然也能录制和回放操作，但它们需要工程师将操作流程写成死板的脚本，任何界面变化都可能导致脚本失效。而AI Agent的引入，本来应该让RPA变得“智能”起来，能够自我修复。但OpenAdapt的实践证明，过度的视觉智能（如识别各种异常弹窗）反而会增加系统的复杂性和失败率。Hewlett认为，最好的策略是“脑眼分离”（brain-eye separation）：让LLM作为“大脑”负责推理和决策，而ACAR作为“手”负责执行具体的点击和键盘动作，中间通过一个抽象的动作描述语言进行沟通。当“手”遇到异常（比如某个按钮点击无效），它会向“大脑”报告错误，再由“大脑”根据新的环境状态重新规划。

对于普通用户而言，这项技术的未来应用令人遐想。想象一下，你只需要对着电脑说一句：“帮我把下周的线上会议邀请全部整理到一个Excel表格里，并且按日期排序。”AI便能在数秒内完成你原本需要花费20分钟手动复制粘贴的枯燥工作。或者，在电商客服场景中，AI可以自动登录多个后台系统，查询订单状态、发起退款，全程不需要任何API接口。Hewlett甚至透露，他们已经实验出一种“教学模式”：用户只需以慢速演示一次操作（比如“打开邮箱-找到最新邮件-下载附件-保存到桌面”），AI便能在几十秒后准确复现，误差小于20毫秒。

不过，这种技术同样伴随着显著的伦理与安全挑战。当一个AI能够像人类一样操作你电脑上的任何软件时，也就意味着它拥有了访问银行转账、私人聊天记录、甚至是工作密件的物理权限。OpenAdapt在设计中强调了“最小权限原则”（principle of least privilege），要求AI在执行任务时只能在指定的软件窗口中活动，并且所有操作都记录在可审计的日志中。但正如任何自动化工具一样，如何防止AI被恶意用于窃取数据或执行破坏性操作，仍然是悬在开发者头顶的一把利剑。Hewlett在采访中承认，安全机制的构建比自动化技术本身更为复杂，他们正在与一家网络保险初创公司合作，试图建立一个“AI操作保险框架”。

展望未来，OpenAdapt的“盲操作”方案可能会与苹果、微软等巨头的桌面AI计划形成有趣的竞合关系。微软已经在其Copilot（智能副驾）中整合了屏幕截图分析能力，而苹果则在研究基于桌面录屏的的AI助手。但Hewlett认为，这些巨头过于执着于让AI“看见”世界，而OpenAdapt的差异化优势在于“只做不做看”——用最经济、最稳定的方式先一步解放生产力。这家目前只有十几人的小公司，已经获得了来自Y Combinator（Y孵化器）的一笔种子轮投资，其代理端点的日活跃请求量在过去三个月内增长了六倍。

可以说，在通往AI操控电脑的征途中，OpenAdapt选择了一条务实但充满争议的道路。它证明了：在很多时候，AI不必理解人类眼中的绚烂光影，只要精准地复刻指尖的每一次触碰，就足以改变这个世界的生产效率。对于这项技术，或许正如Hewlett在博客中引用的一句常被误归于毕加索的话：“技术并不是要让我们看到世界原本的样子，而是要让我们有能力改变它。” 而改变，往往始于一次准确的点击。

深度解读AI智能体技术栈的架构与演进

AI导读

关注微信公众号

AI应用

快速导航

深度解读AI智能体技术栈的架构与演进

AI导读

关注微信公众号

相关推荐

AI本应消灭工程岗位，但新数据表明其最具韧性

种子真能“听”见雨声？MIT证实声波振动可促水稻发芽提速40%

谷歌金融告别测试版，全新安卓App同步上线

MIT新发明：三边拉链让搭帐篷像穿外套一样简单

AI应用

快速导航