这项由阿里巴巴通义实验室(Tongyi Lab)联合悉尼科技大学、阿德莱德大学共同完成的研究,于2026年6月29日以预印本形式公开发布,论文编号为arXiv:2606.30084v1。研究提出了一种名为InnerZoom的新框架,专注于解决AI自动操作电脑界面时"看得到却点不准"的核心问题。
假设你雇了一个助理帮你操作电脑。你说"帮我点一下那个Python解释器的配置按钮",助理的眼睛已经看到那个按钮了,但手指戳下去时却偏了一厘米,点到了旁边的空白处。这种"眼到手不到"的尴尬,恰恰是目前AI电脑助手面临的核心困境。这篇论文的研究团队把这个问题研究透了,并给出了一个既更准确又更高效的解决方案。
一、AI操控电脑,为什么"看得到"却"点不准"?
要理解这个问题,先得搞清楚现代AI是怎么"看"屏幕的。研究团队所处理的任务叫做"GUI Grounding",中文可以理解为"图形界面定位"——给AI一张电脑屏幕截图和一句自然语言指令,让它告诉你要点击屏幕上哪个坐标。这听起来很简单,但实际上相当复杂。
现在主流的做法是用大型多模态语言模型(可以理解为能同时"看图"又"读文字"的超级AI)来完成这件事。这类模型会逐字逐字地"写出"答案,包括写出目标坐标,比如"坐标是[310, 410]"。这个逐步生成的过程在语言理解上表现很好,但在精确定位上却存在一个根本性的矛盾:模型需要在"大范围识别目标区域"和"精确到一个像素级别的坐标"之间完成跨越,而这两件事的难度级别差距极大。
研究团队做了一个很有趣的诊断实验。他们在Qwen3-VL-4B这个模型(一个拥有40亿参数的多模态AI)的各个中间处理层里,监测了一个叫做"ROI Recall"(感兴趣区域召回率)的指标。这个指标衡量的是:在模型还没说出最终坐标之前,它内部的处理状态有没有"注意到"正确的目标区域。结果令人惊讶——在第19到23层(模型共有更多层)之间,模型内部的"注意力热点"平均有69%的概率正确覆盖了目标区域。但到了最后一层,这个比例骤降到14%。
换一个更直观的比喻:这就好比一个侦探在侦查过程中已经把嫌疑人锁定到了某个街区,内心的判断高度准确,但最后写报告时却莫名其妙写错了门牌号。嫌疑人明明就在第三条街七号,报告却写成了第三条街十四号。证据链完整,却在最后一步断掉了。
更具说服力的是,研究团队还做了一个"干预实验"。他们人为地放大模型中间层那些"高度关注目标区域"的视觉信号,结果发现最终的点击准确率在四个不同基准测试上都有所提升,最多提升了2.2个百分点。相反,如果随机放大同等数量的无关视觉信号,准确率反而会下降最多1.1个百分点。这说明中间层的目标区域证据并非巧合,它确实与最终决策有因果关系,只是没能顺利传递到最后的坐标生成步骤中去。研究团队把这个现象命名为"区域到点的鸿沟"(Region-to-Point Gap)。
二、现有的"放大镜"方案:有效,但代价高昂
既然发现了问题,业界自然已经有了一些应对方法。目前最流行的思路被称为"ZoomIn"风格方法。原理非常直觉化:先让AI大致猜测一下目标在哪个区域,然后把那个区域从截图里裁出来放大,再重新喂给AI看一遍,这次让它给出更精确的坐标。
这就像考试时先大致锁定答案范围,然后拿放大镜仔细核对细节。效果确实有所提升,但代价是每次回答都需要跑两遍AI模型——一遍粗定位,一遍精定位。对于需要实时操作电脑的AI助手来说,这意味着延迟几乎翻倍,计算成本也大幅攀升。
研究团队意识到,既然模型在第一遍处理时内部已经形成了很好的目标区域感知,那么问题的根源并不是缺乏视觉信息,而是这些信息没能被妥善保存并传递到最终的坐标生成环节。既然如此,何必非要跑第二遍?核心证据已经在第一遍里了,只是被白白浪费掉了。这个观察催生了InnerZoom的核心思路:能不能在一遍处理内部,把"区域级证据"顺畅地转换成"精确坐标"?
三、InnerZoom的工作原理:一个"内部放大镜"
InnerZoom的整体思路可以用一个考试答题的比喻来理解。传统ZoomIn方法像是交完卷之后发现答案有问题,重新要一张答题纸做第二遍。而InnerZoom则是在答题过程中,在草稿纸上记录下中途想到的关键线索,并持续精炼这些线索,直到写下最终答案时能够充分参考这些草稿。
具体来说,InnerZoom分三个相互配合的步骤运作。
第一步是"目标区域证据提取"。在模型处理到第19层(这是通过实验确定的最佳层数)时,InnerZoom会观察模型内部"文字描述"对"视觉区域"的注意力分布——简单说就是,当AI在读到"Python解释器配置"这几个字时,屏幕上哪些区域让它最"心动"。系统会把这些高度关注的区域标记出来,形成一个热力图,然后通过类似于"找连通区域"的算法(连通分量分析),把热力图中最显著的几个区块圈出来,形成粗略的目标候选框。
这里有一个小细节:系统提取的不是经过压缩的视觉特征,而是视觉编码器在压缩之前的原始细粒度特征。就好比素描画家在最终成稿之前,手里还有那张充满细节铅笔稿——InnerZoom把这张铅笔稿借来用了。
第二步是"跨层证据精炼"。这是InnerZoom最核心的创新机制。研究团队设计了一个叫做"迭代双槽证据适配器"(Iterative Dual-Slot Evidence Adapter)的小模块,分别在模型的第20、23、26、29层被激活(基于消融实验的最优配置)。这个模块维护着两个"证据槽"(可以理解为两个记事本),在每一层被激活时,都会把从目标区域提取到的视觉细节重新整合进这两个记事本,更新其中的内容。
两个记事本的设计并非随意——研究团队希望一个专注记录目标本身的精细外观,另一个记录周围的上下文布局。同时,系统通过一个"门控机制"控制每次更新的幅度,类似于每次翻看草稿时有选择性地修改,而不是每次都推倒重来。这样,跨越多个处理层,证据就被持续精炼和保存,而不会像原来那样随着层数增加逐渐消散。
第三步是"证据引导的坐标解码"。当模型进入最终生成坐标的阶段时,两个精炼后的记事本里存储的证据会被注入到目标区域对应的"键值对"计算中(这是Transformer架构中的一种注意力机制细节)。简单说就是:坐标生成时,模型在"回忆"目标区域长什么样的时候,得到的是经过多层精炼后更清晰、更准确的版本,而不是随着计算流程被稀释后的残影。
整个过程全程只走了一遍模型,没有任何外部裁剪,没有重新输入图片,计算成本的增加仅来自那个小小的适配器模块。
四、训练方式:先打基础,再靠强化学习精调
模型的训练分两个阶段,像是先学理论后做实战。
第一阶段是监督微调(SFT),模型学习在给定截图和指令的情况下生成正确的推理过程和坐标答案。在这个阶段,InnerZoom新加入的证据路径(那个双槽适配器)也同时参与训练,让它学会从中间层提取并精炼证据。为了防止两个记事本变得一模一样(如果两个槽学到了相同的东西就等于浪费了一个),训练中还加入了一个"槽分离正则化"的损失函数,鼓励两个槽维持不同的关注方向。整个SFT过程分三个子阶段递进:先只训练适配器热身,再同时训练适配器和解码器相关层,最后精调坐标生成能力。
第二阶段是强化学习(RL),具体采用的是GRPO方法。每次给模型一个任务,让它生成8个不同的答案,然后检查每个答案预测的坐标是否落在正确的目标框内,以此作为奖励信号。奖励高的答案会被强化,奖励低的会被抑制。这个阶段不需要人工标注过程,只需要检查最终坐标对不对,因此适合大规模训练。训练数据来源于多个公开数据集,包括OS-Atlas、OmniAct、AndroidControl、AMEX和AgentNet,最终整理出28.3万条监督学习样本和10万条强化学习样本。
五、实验数据:在六个测试基准上全面领先
研究团队在六个不同的GUI定位基准上评估了InnerZoom,涵盖桌面操作系统、移动端和网页端界面。评价标准统一为"动作准确率"——预测的坐标是否落在目标元素的边界框内。
结果相当突出。在OSWorld-G(一个专门针对桌面操作系统复杂任务的测试集)上,InnerZoom-4B得到了64.7分,比此前最好的方法高出4.1分。在UI-Vision(测试基本操作、功能性操作和空间定位三类任务的综合基准)上,得到40.2分,比此前最好成绩高出3.2分。在OSWorld-G-Refine(需要文字匹配、元素识别、布局理解和精细操控四类能力的更严苛测试)上,得到73.1分,领先2.9分。在MMBench-GUI(覆盖Windows、MacOS、Linux、iOS、Android和Web六大平台的综合测试)上,得到87.6分,领先2.3分。
尤其值得关注的是,取得这些成绩的InnerZoom-4B只有40亿个参数,却打败了大量参数规模更大的竞争模型,包括70亿参数的多个主流方案,以及320亿甚至720亿参数的庞然大物。这说明参数规模并非决定性因素,架构设计和信息传递方式才是关键。
在与"同等条件下的两遍ZoomIn方法"的直接对比中(相同的4B骨干模型、相同的训练数据),InnerZoom在UI-Vision上高出3.8分,在OSWorld-G-Refine上高出0.6分,在OSWorld-G上高出1.9分,只在ScreenSpot-Pro这个超宽双屏截图测试上略低1.1分(研究团队分析认为,超宽屏幕的特殊情况下显式裁剪确实能带来额外的分辨率优势,这也是论文在局限性部分坦诚指出的)。
在效率方面,研究团队测量了真实的推理延迟。两遍ZoomIn的延迟是基础方案的1.56到1.94倍,计算量是基础方案的1.57到1.75倍。而InnerZoom仅需基础方案的1.18到1.27倍延迟和1.16到1.23倍计算量。换算下来,InnerZoom比两遍ZoomIn快了23.8%到35.7%,平均节省了28.3%的延迟,同时计算量削减了26%到32%。
细粒度分析上,InnerZoom在空间定位类任务上的进步尤为显著。在UI-Vision的空间定位子类中,4B版本从此前最好的18.4分提升到25.4分,2B版本也取得了同类最高的空间准确率。这与研究团队的核心主张一致:跨层证据桥接机制特别有助于在最终坐标生成时保留精细的局部空间信息。
六、消融实验:哪些设计真的有用?
为了验证各个设计选择是否真的有效,研究团队做了一系列"拆零件"测试。
首先测试了证据精炼层数的影响。只用第20和23层时,加权准确率为61.0分;加入第26层后升到62.1;四层全用(第20、23、26、29层)达到最佳的64.2。如果把第20层之后的所有层都加入,准确率只提升了微不足道的0.1分,但可训练参数从180.4万增加到721.8万,性价比极差。这说明在模型中间偏后的几层适当插入证据精炼就已足够。
然后测试了证据槽数量的影响。只用一个槽时准确率降到62.5,用三个槽时降到62.8,只有两个槽的设计达到最高的64.2。一个槽不够用,三个槽则容易产生冗余,两个槽的平衡恰到好处。
这两个消融实验共同说明,InnerZoom的设计并非越复杂越好,而是在经过充分实验后找到了一个轻量且有效的平衡点。
七、还有哪些问题没有解决?
研究团队在论文中坦诚地列出了几类典型的失败案例。
第一类是语义理解困难的指令,比如"打开iPart选项"——如果AI对这个特定软件的操作体系不熟悉,即使看到了界面,也不知道该点哪里。这不是定位精度问题,而是领域知识缺失的问题。
第二类是视觉上模糊的目标,比如界面上有多个外观相似的元素,指令描述又不够明确,模型难以排除干扰项。
第三类是把界面上的文字误当成用户指令。有些界面上有大量的标题、提示文字、占位符文本,模型有时候会被这些界面内容带偏,误以为那些是用户在下达命令。
这三类问题本质上都超出了"精确定位"的范畴,涉及到更深层次的语义理解和干扰排除能力,是未来研究需要继续攻克的方向。
此外,研究团队也指出,对于超宽双屏或极高分辨率的专业界面,显式的外部裁剪放大仍然有其价值,单遍证据桥接和两遍缩放本质上是在解决不同层面的问题,未来或许可以将两者自适应地结合起来。
归根结底,这项研究发现并解决了一个在AI操控电脑领域长期被忽视的问题:AI不是"看不到"目标,而是"记不住"自己看到的东西。InnerZoom通过在模型内部建立一个跨层传递的"证据草稿本",让中途形成的目标感知能够顺畅地流转到最终点击的那一刻,从而在不牺牲速度的前提下大幅提升了精度。对于普通用户来说,这意味着未来的AI电脑助手在帮你执行"点击某个按钮"这类操作时会更加可靠,不再动辄点偏,而且响应速度也更快。如果你对这个研究的技术细节感兴趣,可以通过论文编号arXiv:2606.30084查阅完整原文。
Q&A
Q1:InnerZoom和ZoomIn方法有什么本质区别?
A:ZoomIn需要先运行一遍AI模型猜大致位置,再把那个区域截图出来重新运行一遍精确定位,相当于做了两次推理。InnerZoom则是在第一遍推理过程中,通过一个小型适配器模块把中间层形成的目标感知保存起来并持续精炼,最终坐标生成时直接利用这些精炼后的证据,全程只需一遍推理,速度更快,在大多数测试上精度还更高。
Q2:InnerZoom的双槽证据设计为什么是两个槽而不是一个或三个?
A:研究团队通过消融实验测试了不同槽数量的效果。单槽设计容量不足,难以同时保存目标本身的细节和周围的布局信息;三槽设计则容易产生冗余,两个槽之间过于相似,反而削弱了证据的多样性。两槽设计在这两个极端之间找到了平衡,实验结果显示加权准确率比单槽高1.7分,比三槽高1.4分。
Q3:InnerZoom在哪类界面定位任务上提升最明显?
A:在空间定位类任务和密集图标类任务上提升最显著。在UI-Vision基准的空间定位子类中,4B版本从18.4分跳升到25.4分。在ScreenSpot-Pro的科学软件和办公软件图标定位类别中也有明显提升。这与InnerZoom的机制相符——跨层证据保留特别有助于在最终点击时记住精细的局部视觉细节,从而区分外观相似的相邻元素。
股票配资行情提示:文章来自网络,不代表本站观点。