微软的OmniParser正在做一些事情。
本月早些时候,雷德蒙德发布了一种新的开源模型,可以将屏幕截图转换为 AI 代理更容易理解的格式,但就在本周,它成为了 AI 代码库 Hugging Face 上最流行的模型(根据最近的下载量确定)。
根据Hugging Face 联合创始人兼首席执行官 Clem Delangue在 X 上发布的帖子,这也是第一个采用此举的代理相关模式。
但是 OmniParser 到底是什么,为什么它突然受到如此多的关注?
从本质上讲,OmniParser 是一个开源生成式 AI模型,旨在帮助大型语言模型 (LLM)(尤其是 GPT-4V 等支持视觉的模型)更好地理解和与图形用户界面 (GUI) 交互。
OmniParser 是微软低调发布的,它可能是让生成工具能够导航和理解基于屏幕的环境的关键一步。让我们来分析一下这项技术的工作原理以及它为何如此迅速地受到关注。
什么是 OmniParser?
OmniParser 本质上是一个功能强大的新工具,旨在将屏幕截图解析为视觉语言模型 (VLM) 可以理解和执行的结构化元素。随着 LLM 越来越多地融入日常工作流程,微软意识到 AI 需要在各种 GUI 之间无缝运行。OmniParser 项目旨在使 AI 代理能够查看和理解屏幕布局,提取文本、按钮和图标等重要信息,并将其转换为结构化数据。
这使得 GPT-4V 等模型能够理解这些界面并代表用户自主执行从填写在线表格到点击屏幕某些部分等任务。
虽然人工智能的 GUI 交互概念并不完全是新概念,但 OmniParser 的功能效率和深度却非常突出。以前的模型经常在屏幕导航方面遇到困难,特别是在识别特定的可点击元素以及在更广泛的任务中理解它们的语义价值方面。微软的方法结合使用高级对象检测和 OCR(光学字符识别)来克服这些障碍,从而形成更可靠、更有效的解析系统。
OmniParser 背后的技术
OmniParser 的优势在于它使用不同的 AI 模型,每个模型都有特定的作用:
- YOLOv8:通过提供边界框和坐标来检测可交互元素(如按钮和链接)。它本质上是识别屏幕的哪些部分可以交互。
- BLIP-2:分析检测到的元素以确定其用途。例如,它可以识别图标是“提交”按钮还是“导航”链接,从而提供关键背景信息。
- GPT-4V:使用来自 YOLOv8 和 BLIP-2 的数据进行决策并执行单击按钮或填写表格等任务。GPT-4V 处理有效交互所需的推理和决策。
此外,OCR 模块可从屏幕中提取文本,这有助于理解标签和 GUI 元素周围的其他上下文。通过结合检测、文本提取和语义分析,OmniParser 提供了一种即插即用的解决方案,它不仅适用于 GPT-4V,还适用于其他视觉模型,从而提高了其多功能性。
开源灵活性
OmniParser 的开源方法是其受欢迎程度的一个关键因素。它适用于一系列视觉语言模型,包括 GPT-4V、Phi-3.5-V 和 Llama-3.2-V,这使其能够灵活地为拥有广泛高级基础模型访问权限的开发人员提供服务。
OmniParser 在 Hugging Face 上的出现也使其被广泛的受众所接受,从而引发了人们的实验和改进。这种由社区驱动的开发正在帮助 OmniParser 快速发展。微软合作伙伴研究经理 Ahmed Awadallah指出,开放合作是构建有能力的 AI 代理的关键,而 OmniParser 正是这一愿景的一部分。
争夺人工智能屏幕交互主导地位
OmniParser 的发布是科技巨头之间争夺 AI 屏幕交互领域主导地位的更广泛竞争的一部分。最近,Anthropic在其 Claude 3.5 更新中发布了一项类似但闭源的功能,名为“Computer Use” ,该功能允许 AI 通过解释屏幕内容来控制计算机。Apple 也推出了Ferret-UI,旨在开发移动 UI,使其 AI 能够理解并与小部件和图标等元素进行交互。
OmniParser 与这些替代方案的不同之处在于,它致力于实现跨平台和 GUI 的通用性和适应性。OmniParser 不局限于特定环境,例如仅限 Web 浏览器或移动应用程序 – 它旨在成为任何支持视觉的 LLM 与各种数字界面(从桌面到嵌入式屏幕)交互的工具。
挑战与未来之路
尽管 OmniParser 有诸多优势,但也有局限性。一个持续存在的挑战是准确检测重复的图标,这些图标通常出现在相似的上下文中,但用途不同 – 例如,同一页面中不同表单上的多个“提交”按钮。根据微软的文档,当前的模型仍然难以有效区分这些重复的元素,从而导致动作预测中可能出现失误。
此外,OCR 组件的边界框精度有时会出现偏差,尤其是在文本重叠的情况下,这可能会导致错误的点击预测。这些挑战凸显了设计能够与多样化和复杂的屏幕环境准确交互的 AI 代理所固有的复杂性。
然而,人工智能社区乐观地认为,这些问题可以通过持续改进得到解决,尤其是考虑到 OmniParser 的开源可用性。随着越来越多的开发人员参与微调这些组件并分享他们的见解,该模型的功能可能会迅速发展。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/wei-ruan-de-dai-li-ai-gong-ju-omniparser-zai-kai-yuan-pai