廉价的人工智能“视频抓取”现在可以从任何屏幕录像中提取数据

廉价的人工智能“视频抓取”现在可以从任何屏幕录像中提取数据

最近,人工智能研究员 Simon Willison 想要汇总使用云服务的费用,但他需要的付款金额和日期分散在十几封不同的电子邮件中。手动输入这些信息会很繁琐,因此他采用了一种他称之为“视频抓取”的技术,即将屏幕录制视频输入到类似于 ChatGPT 的人工智能模型中,以进行数据提取。

他的发现表面上看起来很简单,但结果的质量对人工智能助手的未来具有更深远的影响,人工智能助手可能很快就能看到我们在电脑屏幕上所做的事情并进行互动。

威利森在博客上的一篇详细文章中写道:“前几天,我发现自己需要将分散在 12 封不同电子邮件中的一些数值相加。”他录制了一段 35 秒的视频,滚动浏览相关电子邮件,然后将该视频输入Google 的 AI Studio工具,该工具允许人们尝试 Google 的Gemini 1.5 Pro和 Gemini 1.5 Flash AI 模型的多个版本。

随后,威利森让 Gemini 从视频中提取价格数据,并将其整理成一种特殊的数据格式,称为JSON(JavaScript 对象表示法),其中包含日期和美元金额。人工智能模型成功提取了数据,威利森随后将其格式化为CSV(逗号分隔值)表以供电子表格使用。在实验中仔细检查错误后,结果的准确性——以及视频分析的运行成本——令他感到惊讶。

廉价的人工智能“视频抓取”现在可以从任何屏幕录像中提取数据
Simon Willison 使用 Google Gemini 从屏幕截图视频中提取数据的截图。 来源: Simon Willison

当最新的大型语言模型 (LLM)(例如 Google 的 Gemini 和GPT-4o)实际上是“多模态”模型时,视频抓取只是众多可能的新技巧之一,允许音频、视频、图像和文本输入。这些模型将任何多媒体输入转换为标记(数据块),它们使用这些数据来预测序列中接下来应该出现哪些标记。

如今,对于具有多模态输入和输出的 AI 模型来说,“标记预测模型”(TPM)这样的术语可能比“LLM”更准确,但通用的替代术语尚未真正流行起来。但无论你怎么称呼它,拥有一个可以接受视频输入的 AI 模型都有有趣的含义,既有好处也有坏处。

打破输入障碍

威利森并不是第一个将视频输入 AI 模型并获得有趣结果的人(更多内容见下文,这是2015 年的一篇使用“视频抓取”术语的论文),但 Gemini 一推出其视频输入功能,他就开始认真地进行实验。

今年 2 月,威利森在他的博客上展示了人工智能视频抓取的另一个早期应用,他拍摄了一段书架上书籍的七秒视频,然后让 Gemini 1.5 Pro 提取它在视频中看到的所有书名,并将它们放入一个结构化或有组织的列表中。

将非结构化数据转换为结构化数据对 Willison 来说很重要,因为他也是一名数据记者。Willison 过去曾为数据记者创建过工具,例如Datasette 项目,它允许任何人以交互式网站的形式发布数据。

令每一位数据记者感到沮丧的是,由于数据的格式、存储或呈现方式,某些数据源很难被抓取(获取数据进行分析)。在这些情况下,Willison 看好人工智能视频抓取的潜力,因为它绕过了数据提取的传统障碍。

威利森在他的博客上指出:“无论何种网站身份验证或反抓取技术都无法阻止我在手动点击网络应用程序时录制屏幕视频。”他的方法适用于任何可见的屏幕内容。

视频是新的文本

廉价的人工智能“视频抓取”现在可以从任何屏幕录像中提取数据
机械眼球示意图。 图片来源: Getty Images

Willison 的技术既简单又有效,这反映出用户与 token 预测模型交互方式正在发生显著变化。一些 AI 应用程序不再要求用户手动粘贴或输入聊天对话框中的数据,也不再要求用户将每个场景以文本形式详细地发送给聊天机器人,而是越来越多地使用直接在屏幕上捕获的视觉数据。例如,如果您在浏览披萨网站的糟糕界面时遇到困难,AI 模型可以介入并执行必要的鼠标点击来为您订购披萨。

事实上,视频抓取已经引起了各大人工智能实验室的关注,尽管他们目前不太可能这样称呼它。相反,科技公司通常将这些技术称为“视频理解”或简称为“视觉”。

今年 5 月,OpenAI 展示了其ChatGPT Mac App的原型版本,其中有一个选项允许 ChatGPT 查看屏幕上的内容并与之交互,但该功能尚未发布。微软本月早些时候展示了类似的“ Copilot Vision ”原型概念(基于 OpenAI 的技术),它将能够“监视”你的屏幕并帮助你提取数据并与你正在运行的应用程序进行交互。

尽管有这些研究预览,OpenAI 的ChatGPT和 Anthropic 的Claude尚未为他们的模型实现公共视频输入功能,可能是因为处理来自“标记化”视频流的额外标记在计算上相对较昂贵。

目前,谷歌正利用其搜索收入和大量数据中心的资金大力补贴用户 AI 成本(公平地说,OpenAI 也在补贴,但得到了投资者的资金和微软的帮助)。但总体而言,AI 计算的成本正在日益下降,这将随着时间的推移向更广泛的用户群开放该技术的新功能。

应对隐私问题

你可能想象得到,让人工智能模型看到你在电脑屏幕上做什么可能会有负面影响。目前,视频抓取对 Willison 来说非常棒,他无疑会以积极和有益的方式使用捕获的数据。但这也是一种功能的预览,这种功能以后可能会被用来侵犯隐私或自动监视电脑用户,其规模曾经是不可能达到的。

正是出于这个原因,另一种形式的视频抓取最近引发了巨大的争议。Mac 上的第三方Rewind AI和内置于 Windows 11 中的Microsoft Recall等应用程序通过将屏幕上的视频输入 AI 模型来运行,该模型将提取的数据存储到数据库中以供以后 AI 调用。不幸的是,这种方法也带来了潜在的隐私问题,因为它会记录您在机器上所做的一切,并将其放在一个可能被黑客入侵的地方。

廉价的人工智能“视频抓取”现在可以从任何屏幕录像中提取数据
图片来源: Getty Images | Benj Edwards

至此,尽管威利森的技术目前涉及将其数据视频上传至谷歌进行处理,但他很高兴自己仍然可以决定人工智能模型看到什么以及何时看到。

威利森在他的博客文章中解释道:“这种视频抓取技术的优点在于,它可以处理你在屏幕上看到的任何内容……并且让你完全控制最终向人工智能模型展示的内容。”

未来,本地运行的开放权重 AI 模型也有可能实现相同的视频分析方法,而无需任何云连接。Microsoft Recall 在受支持的设备上本地运行,但仍需要大量不劳而获的信任。目前,Willison 完全乐意在需要时有选择地将视频数据提供给 AI 模型。

“我预计未来我会更多地使用这种技术,”他写道,也许很多人也会以不同的形式使用。如果过去可以作为参考,那么威利森——他在 2022 年创造了“即时注射”一词——似乎总是在探索人工智能工具的新应用方面领先几步。现在,他的注意力集中在人工智能和视频的新含义上,你的注意力可能也应该如此。

原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/lian-jia-de-ren-gong-zhi-neng-shi-pin-zhua-qu-xian-zai-ke

Like (0)
点点的头像点点
Previous 2024年10月21日 下午7:00
Next 2024年10月21日

相关推荐

发表回复

Please Login to Comment