廉价的人工智能“视频抓取”现在可以从任何屏幕录像中提取数据

点点 • 2024年10月21日下午8:00 • AI前沿 • 256 views

最近，人工智能研究员 Simon Willison 想要汇总使用云服务的费用，但他需要的付款金额和日期分散在十几封不同的电子邮件中。手动输入这些信息会很繁琐，因此他采用了一种他称之为“视频抓取”的技术，即将屏幕录制视频输入到类似于 ChatGPT 的人工智能模型中，以进行数据提取。

他的发现表面上看起来很简单，但结果的质量对人工智能助手的未来具有更深远的影响，人工智能助手可能很快就能看到我们在电脑屏幕上所做的事情并进行互动。

威利森在博客上的一篇详细文章中写道：“前几天，我发现自己需要将分散在 12 封不同电子邮件中的一些数值相加。”他录制了一段 35 秒的视频，滚动浏览相关电子邮件，然后将该视频输入Google 的 AI Studio工具，该工具允许人们尝试 Google 的Gemini 1.5 Pro和 Gemini 1.5 Flash AI 模型的多个版本。

随后，威利森让 Gemini 从视频中提取价格数据，并将其整理成一种特殊的数据格式，称为JSON（JavaScript 对象表示法），其中包含日期和美元金额。人工智能模型成功提取了数据，威利森随后将其格式化为CSV（逗号分隔值）表以供电子表格使用。在实验中仔细检查错误后，结果的准确性——以及视频分析的运行成本——令他感到惊讶。

当最新的大型语言模型 (LLM)（例如 Google 的 Gemini 和GPT-4o）实际上是“多模态”模型时，视频抓取只是众多可能的新技巧之一，允许音频、视频、图像和文本输入。这些模型将任何多媒体输入转换为标记（数据块），它们使用这些数据来预测序列中接下来应该出现哪些标记。

如今，对于具有多模态输入和输出的 AI 模型来说，“标记预测模型”（TPM）这样的术语可能比“LLM”更准确，但通用的替代术语尚未真正流行起来。但无论你怎么称呼它，拥有一个可以接受视频输入的 AI 模型都有有趣的含义，既有好处也有坏处。

打破输入障碍

威利森并不是第一个将视频输入 AI 模型并获得有趣结果的人（更多内容见下文，这是2015 年的一篇使用“视频抓取”术语的论文），但 Gemini 一推出其视频输入功能，他就开始认真地进行实验。

今年 2 月，威利森在他的博客上展示了人工智能视频抓取的另一个早期应用，他拍摄了一段书架上书籍的七秒视频，然后让 Gemini 1.5 Pro 提取它在视频中看到的所有书名，并将它们放入一个结构化或有组织的列表中。

将非结构化数据转换为结构化数据对 Willison 来说很重要，因为他也是一名数据记者。Willison 过去曾为数据记者创建过工具，例如Datasette 项目，它允许任何人以交互式网站的形式发布数据。

令每一位数据记者感到沮丧的是，由于数据的格式、存储或呈现方式，某些数据源很难被抓取（获取数据进行分析）。在这些情况下，Willison 看好人工智能视频抓取的潜力，因为它绕过了数据提取的传统障碍。

威利森在他的博客上指出：“无论何种网站身份验证或反抓取技术都无法阻止我在手动点击网络应用程序时录制屏幕视频。”他的方法适用于任何可见的屏幕内容。

视频是新的文本

Willison 的技术既简单又有效，这反映出用户与 token 预测模型交互方式正在发生显著变化。一些 AI 应用程序不再要求用户手动粘贴或输入聊天对话框中的数据，也不再要求用户将每个场景以文本形式详细地发送给聊天机器人，而是越来越多地使用直接在屏幕上捕获的视觉数据。例如，如果您在浏览披萨网站的糟糕界面时遇到困难，AI 模型可以介入并执行必要的鼠标点击来为您订购披萨。

事实上，视频抓取已经引起了各大人工智能实验室的关注，尽管他们目前不太可能这样称呼它。相反，科技公司通常将这些技术称为“视频理解”或简称为“视觉”。

今年 5 月，OpenAI 展示了其ChatGPT Mac App的原型版本，其中有一个选项允许 ChatGPT 查看屏幕上的内容并与之交互，但该功能尚未发布。微软本月早些时候展示了类似的“ Copilot Vision ”原型概念（基于 OpenAI 的技术），它将能够“监视”你的屏幕并帮助你提取数据并与你正在运行的应用程序进行交互。

尽管有这些研究预览，OpenAI 的ChatGPT和 Anthropic 的Claude尚未为他们的模型实现公共视频输入功能，可能是因为处理来自“标记化”视频流的额外标记在计算上相对较昂贵。

目前，谷歌正利用其搜索收入和大量数据中心的资金大力补贴用户 AI 成本（公平地说，OpenAI 也在补贴，但得到了投资者的资金和微软的帮助）。但总体而言，AI 计算的成本正在日益下降，这将随着时间的推移向更广泛的用户群开放该技术的新功能。

应对隐私问题

你可能想象得到，让人工智能模型看到你在电脑屏幕上做什么可能会有负面影响。目前，视频抓取对 Willison 来说非常棒，他无疑会以积极和有益的方式使用捕获的数据。但这也是一种功能的预览，这种功能以后可能会被用来侵犯隐私或自动监视电脑用户，其规模曾经是不可能达到的。

正是出于这个原因，另一种形式的视频抓取最近引发了巨大的争议。Mac 上的第三方Rewind AI和内置于 Windows 11 中的Microsoft Recall等应用程序通过将屏幕上的视频输入 AI 模型来运行，该模型将提取的数据存储到数据库中以供以后 AI 调用。不幸的是，这种方法也带来了潜在的隐私问题，因为它会记录您在机器上所做的一切，并将其放在一个可能被黑客入侵的地方。

至此，尽管威利森的技术目前涉及将其数据视频上传至谷歌进行处理，但他很高兴自己仍然可以决定人工智能模型看到什么以及何时看到。

威利森在他的博客文章中解释道：“这种视频抓取技术的优点在于，它可以处理你在屏幕上看到的任何内容……并且让你完全控制最终向人工智能模型展示的内容。”

未来，本地运行的开放权重 AI 模型也有可能实现相同的视频分析方法，而无需任何云连接。Microsoft Recall 在受支持的设备上本地运行，但仍需要大量不劳而获的信任。目前，Willison 完全乐意在需要时有选择地将视频数据提供给 AI 模型。

“我预计未来我会更多地使用这种技术，”他写道，也许很多人也会以不同的形式使用。如果过去可以作为参考，那么威利森——他在 2022 年创造了“即时注射”一词——似乎总是在探索人工智能工具的新应用方面领先几步。现在，他的注意力集中在人工智能和视频的新含义上，你的注意力可能也应该如此。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/lian-jia-de-ren-gong-zhi-neng-shi-pin-zhua-qu-xian-zai-ke

AI 模型 ChatGPT Claude Gemini Google Microsoft Rewind AI

Like (0)

点点

0 0

Throne 的厕所摄像头可以拍摄你的便便

Previous 2024年10月21日下午7:00

人工智能领域Marissa Hummon 认为人工智能将有助于使电网更加环保

Next 2024年10月21日

AI前沿

Numeric 获 2800 万美元 A 轮融资，利用人工智能实现会计自动化

会计师通常害怕月末和季末结账。这是因为确定特定时期的财务记录通常需要手动操作，容易出错，而且耗时。 2020 年，帕克·吉尔伯特（上图中间）厌倦了在一家早期创业公司管理…

点点
2024年10月13日
000
AI前沿

Meta 的新款智能眼镜看起来是未来趋势

Meta 最令人印象深刻的新产品——代号为 Orion 的智能眼镜目前还无法购买。几年后，你也许可以买到类似产品，但大多数人甚至都无法戴上它们。不过，这并不一定会让它们变得不那么令…

王浩然
2024年9月30日
000
AI前沿

Observe.AI推出VoiceAI客服代理，以逼真人声自动化客服呼叫中心

近日，Observe.AI在人工智能领域迈出了重要一步，正式推出了VoiceAI客服代理，旨在以逼真的人类声音自动化客服呼叫中心的日常交互。这一创新解决方案不仅旨在提升客户体验，还…

王浩然
2025年3月29日
000
AI前沿

Chain of Experts（COE）：低成本高效能的大型语言模型框架

引言在人工智能（AI）领域，大型语言模型（LLM）的应用日益广泛，但高昂的成本和复杂的部署流程一直是阻碍其普及的关键因素。近日，一种名为Chain of Experts（COE）…

王浩然
2025年3月19日
000
AI前沿

“个性化、不受限制”的人工智能实验室 Nous Research 推出首个开启推理模型：DeepHermes-3

人工智能推理模型——在文本中产生“思路链”（CoT）并反思自己的分析以尝试在输出响应之前中途捕捉错误的模型——现在风靡一时，这要归功于DeepSeek和OpenAI 的“o”系列。…

王浩然
2025年2月18日
000
AI前沿

Manus：来自中国的新一代AI代理系统，被誉为第二个“DeepSeek时刻”

引言在人工智能（AI）领域，每一次技术创新都可能引发行业地震。最近，一款名为Manus的AI代理系统在中国横空出世，并迅速在全球范围内引起了广泛关注。这款被誉为中国第二个“Dee…

王浩然
2025年3月19日
000
AI前沿

法官允许加州禁止未成年人食用成瘾性食品的禁令生效

周二晚些时候，一名联邦法官阻止了科技游说团体 NetChoice 对加州最近颁布的法律SB 976的挑战，该法律禁止公司向未成年人提供“上瘾内容”。该决定的效果是，从周三开始，除…

王浩然
2025年1月2日
000
AI前沿

从AI代理的热潮到实践：为何企业必须重视适用性而非盲目追求

随着我们全面步入自主转型的时代，AI代理正在重塑企业的运营方式和价值创造途径。然而，在数百家声称提供“AI代理”的供应商中，我们如何穿透炒作迷雾，理解这些系统真正能够实现的成果，以…

王浩然
4天前
000
AI前沿

该法学硕士框架首次尝试对 Big AI 是否遵守《欧盟人工智能法案》进行基准测试

当大多数国家的立法者仍在讨论如何为人工智能设置护栏时，欧盟已经走在了前面，并于今年早些时候通过了基于风险的人工智能应用监管框架。该法律于 8 月生效，尽管泛欧盟人工智能治理制度的…

王浩然
2024年10月17日
000
AI前沿

AI谎言探测器：HallOumi的开源幻觉检测方法如何解锁企业AI应用

在推动企业AI部署的竞赛中，一个长期存在的障碍始终阻碍着前进的步伐：幻觉。这些由AI系统产生的虚假响应，已经导致了一系列问题，从律师面临的法律制裁到公司被迫遵守虚构的政策。为了解决…

王浩然
2025年4月4日
000
AI前沿

欧盟人工智能法案：通用人工智能指导草案为大型人工智能遵守规定迈出了第一步

根据欧盟《人工智能法案》，适用于通用人工智能模型提供商的行为准则初稿已经发布，同时还发布了反馈邀请——反馈截止日期为 11 月 28 日——起草过程将持续到明年，正式的合规期限将在…

王浩然
2024年11月16日
000
AI前沿

YouTube Shorts 将整合谷歌的 AI 视频模型 Veo

YouTube 周三上午举办的 Made On YouTube 活动的主要亮点是人工智能。该公司宣布，将把 Google DeepMind 的 AI 视频生成模型Veo整合到 Yo…

王浩然
2024年9月19日
000
AI前沿

人工智能训练研究货币化：风险与最佳实践

随着对生成式人工智能的需求不断增长，对用于训练这些系统的高质量数据的需求也在不断增长。学术出版商已经开始将其研究内容货币化，为大型语言模型 (LLM) 提供训练数据。虽然这一发展为…

王浩然
2024年12月26日
000
AI前沿

Meta 的 Llama AI 模型现在也支持图像

本杰明·富兰克林曾经写道，除了死亡和税收，没有什么是确定的。让我修改一下这句话，以反映当前的人工智能淘金热：除了死亡、税收和新的人工智能模型，没有什么是确定的，其中最后一种模式正在…

王浩然
2024年9月29日
000
AI前沿

为何更智能的ERP数据是AI驱动增长的关键

在当今这个技术日新月异的时代，企业面临着前所未有的挑战与机遇。一方面，互联网、智能手机和移动应用的普及极大地推动了商业创新；另一方面，业务生产力的增长却似乎陷入了停滞。据麦肯锡的数…

王浩然
2025年3月20日
000
AI前沿

挪威1X公司正在研发家用仿人机器人

挪威的创新科技公司1X近日宣布，他们正在致力于开发一款专为家庭环境设计的仿人机器人。这一项目旨在通过先进的人工智能和机器人技术，为日常生活带来便利和新的互动体验。据1X公司介绍，…

王浩然
2025年2月26日
000
AI前沿

增强数据控制权：数据主权是人工智能时代的战略要务

在当今快速发展的数字化转型世界中，数据不仅仅是一种资源，更是创新的命脉。各行各业的企业都严重依赖人工智能 (AI) 来做出更快的决策、优化运营并发掘新机遇。但由于 AI 依赖大量数…

点点
2024年10月16日
000
AI前沿

Meta AI正式进军中东与非洲市场，推出阿拉伯语支持功能

Meta AI近日正式宣布将业务版图拓展至中东与非洲地区，此举象征着其在全球范围内迈出了重要的一步。此次拓展的核心目标，是将Meta AI前沿的人工智能技术带给更多用户，特别是广大…

王浩然
2025年2月27日
000
AI前沿

“不受限制”的人工智能集团 Nous Research 推出首个聊天机器人

Nous Research是一家致力于创建“个性化、不受限制”的人工智能模型的人工智能研究机构，旨在替代 OpenAI、Anthropic、Google、Meta 等较为保守的企业…

王浩然
2024年11月9日
000
AI前沿

Fal.ai 是一家提供媒体生成 AI 模型的公司，从 a16z 和其他公司筹集了 2300 万美元

Fal.ai是一个专注于 AI 生成音频、视频和图像开发的平台，今天该公司透露，它已经从 Andreessen Horowitz (a16z)、Black Forest Labs联…

王浩然
2024年9月19日
000