谷歌的 Gemini AI 打破了视觉处理的规则——这对你来说意味着什么

王浩然 • 2025年1月15日下午3:00 • AI前沿 • 55 views

谷歌的Gemini AI悄然颠覆了人工智能领域，实现了几乎没人认为可能的里程碑：实时同时处理多个视觉流。

这项突破性技术让 Gemini 不仅能观看实时视频，还能同时分析静态图像。这项技术并未通过 Google 的旗舰平台发布，而是来自一款名为“ AnyChat ”的实验性应用。

这一出乎意料的飞跃凸显了Gemini 架构尚未开发的潜力，突破了人工智能处理复杂多模式交互的能力界限。多年来，人工智能平台一直局限于管理实时视频流或静态照片，但从未同时管理两者。有了 AnyChat，这一障碍已被彻底打破。

Gradio 机器学习 (ML) 主管兼 AnyChat 创始人 Ahsen Khaliq 在接受采访时表示：“即使是 Gemini 的付费服务也做不到这一点。现在，你可以与 AI 进行真正的对话，同时它还可以处理你的实时视频和你想分享的任何图像。”

谷歌 Gemini 如何悄然重新定义 AI 视野

Gemini 多流功能背后的技术成就在于其先进的神经架构——AnyChat 巧妙利用这一基础架构来处理多个视觉输入，而不会牺牲性能。Gemini的 API中已经存在此功能，但尚未在 Google 面向最终用户的官方应用程序中提供。

相比之下，包括ChatGPT在内的许多 AI 平台的计算需求将它们限制在单流处理范围内。例如，ChatGPT 目前在上传图像时会禁用实时视频流。即使处理一个视频源也会耗费资源，更不用说将其与静态图像分析相结合了。

这项突破的潜在应用既具有变革性又具有直接性。学生现在可以将相机对准微积分问题，同时向 Gemini 展示教科书以获得分步指导。艺术家可以分享正在进行的作品以及参考图像，并获得有关构图和技巧的细致入微的实时反馈。

Gemini 多流 AI 突破背后的技术

AnyChat 的成就之所以引人注目，不仅在于技术本身，还在于它绕过了Gemini 官方部署的限制。这一突破得益于 Google Gemini API的专门许可，使 AnyChat 能够访问 Google 自身平台所不具备的功能。

使用这些扩展的权限，AnyChat 优化了 Gemini 的注意力机制，使其能够同时跟踪和分析多个视觉输入，同时保持对话的连贯性。开发人员只需几行代码就可以轻松复制此功能，正如 AnyChat 使用Gradio（一个用于构建 ML 界面的开源平台）所展示的那样。

例如，开发人员可以使用以下代码片段启动自己的基于 Gemini 的视频聊天平台，并支持图像上传：

这种简单性凸显了 AnyChat 不仅是 Gemini 潜力的展示，而且还是希望构建自定义视觉 AI 应用程序的开发人员的工具包。

AnyChat 的成功不仅在于技术本身，还在于它绕过了Gemini 官方部署的限制。这一突破得益于 Google Gemini 团队的专门授权，使 AnyChat 能够访问 Google 自身平台上尚未具备的功能。

Khaliq 表示：“ Google AI Studio中的实时视频功能无法处理流媒体期间上传的图像。目前还没有其他平台实现这种同步处理。”

解锁 Gemini 隐藏功能的实验性应用程序

AnyChat 的成功并非偶然，平台开发人员与 Gemini 的技术架构紧密合作，不断拓展其极限，从而揭示出 Gemini 甚至连 Google 官方工具都尚未探索的一面。

这种实验性方法使 AnyChat 能够同时处理实时视频和静态图像流，从根本上打破了“单流障碍”。结果是一个比竞争对手更具动态、更直观的平台，能够更有效地处理现实世界的用例。

为什么同步视觉处理会改变游戏规则

Gemini 新功能的意义远远超出了创意工具和日常 AI 交互。想象一下，一位医疗专业人员同时向 AI 展示患者实时症状和历史诊断扫描。工程师可以将实时设备性能与技术原理图进行比较，获得即时反馈。质量控制团队可以以前所未有的准确性和效率将生产线产量与参考标准进行匹配。

在教育领域，Gemini 的潜力是革命性的。学生可以实时使用 Gemini 分析教科书，同时解决练习问题，获得情境感知支持，弥补静态和动态学习环境之间的差距。对于艺术家和设计师来说，同时展示多个视觉输入的能力为创造性协作和反馈开辟了新的途径。

AnyChat 的成功对未来 AI 创新意味着什么

目前，AnyChat 仍是一个实验性的开发者平台，其运行速度受到 Gemini 开发者的扩展限制。然而，它的成功证明了同时实现多流 AI 视觉不再是一个遥不可及的愿望——它已经成为现实，可以大规模采用。

AnyChat 的出现引发了一些发人深省的问题。为什么 Gemini 的官方发布没有包含此功能？这是一种疏忽，还是资源分配的刻意选择，或者表明规模更小、更敏捷的开发人员正在推动下一波创新浪潮？

随着人工智能竞赛的加速，AnyChat 的教训显而易见：最重要的进步可能并不总是来自科技巨头庞大的研究实验室。相反，它们可能源自那些看到现有技术潜力并敢于进一步推动其发展的独立开发者。

Gemini 的突破性架构现已被证明能够进行多流处理，为 AI 应用的新时代奠定了基础。谷歌是否会将这一功能纳入其官方平台仍不确定。但有一点是明确的：AI 的能力与官方能力之间的差距变得更加有趣。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/gu-ge-de-gemini-ai-da-po-le-shi-jue-chu-li-de-gui-ze-zhe

Like (0)

王浩然作者

0 0

人工智能中的幻觉：葛兰素史克如何解决药物开发中的关键问题

Previous 2025年1月15日

MiniMax 推出自己的开源 LLM，具有行业领先的 4M 代币上下文

Next 2025年1月15日

AI前沿

企鹅兰登书屋保护其书籍免受人工智能训练的影响

企鹅兰登书屋（PRH）针对人们对使用知识产权训练人工智能系统日益增长的担忧采取了重要举措。出版商在新书和重印书的版权页上添加了一条新声明，指出“不得以任何方式使用或复制本书的任何…

点点
2024年10月24日
000
AI前沿

针对人工智能模型的对抗性攻击日益增多：您现在应该怎么做？

随着越来越多的企业承认经历过与人工智能相关的安全事件，对机器学习 (ML) 模型的对抗性攻击的强度、频率和复杂程度正在不断提高。人工智能的广泛应用导致威胁面迅速扩大，所有企业都难…

王浩然
2024年9月22日
000
AI前沿

利用人工智能节省照片筛选时间

如果您是摄影师，没有什么比在大型活动或拍摄后整理数百张（甚至数千张）照片更耗时的事情了。您是否知道专业摄影师平均每小时拍摄一次，要花 3-4 个小时进行编辑？我最近偶然发现了Af…

AI评测师
2024年10月7日
000
AI前沿

“未来的你”人工智能让你遇见未来的自己

该系统使用大型语言模型，根据信息生成可关联的虚拟版本

点点
2024年10月8日
000
AI前沿

OpenAI 首席技术官和其他两人离职，Altman 否认与重组计划有关

OpenAI 首席技术官 Mira Murati在社交网络 X 上分享了她令人意外的辞职信，宣布她将离开公司。Murati 于 2018 年加入 OpenAI，在六年半的时间里担任…

点点
2024年10月1日
000
AI前沿

Gemini 2.0 Flash 开启实时多模态 AI 新时代

谷歌本周发布了Gemini 2.0 Flash ，为用户提供了一种与周围环境视频进行实时互动的方式，这为企业和消费者使用技术方式的重大转变奠定了基础。此次发布以及 OpenAI、…

王浩然
2024年12月17日
000
AI前沿

WordPress 针对 WP Engine 采取的最新举措：控制 ACF 插件

WordPress 创始人 Matt Mullenweg 与托管服务提供商 WP Engine 之间的争执仍在继续，Mullenweg宣布WordPress 正在“分叉”WP En…

点点
2024年10月13日
000
AI前沿

科学家如何在太空中研究宇航员的心理健康

保持宇航员在太空中的健康不仅仅是确保他们有足够的运动和好的食物。考虑他们的心理健康也很重要。这是任何工作的一个重要因素，但对于在国际空间站（ISS）上生活在太空中的人来说尤其重要。…

点点
2024年9月29日
000
AI前沿

2025 年为何将重新定义数据基础设施：11 位专家对主权云、爆炸式增长的数据、PaaS 等的见解

如果说 2023 年是关于生成式人工智能聊天机器人和搜索，那么2024 年则引入了代理式人工智能——能够在数字环境中规划和执行多步骤操作的工具。从Devin 的工程突破到微软对Co…

王浩然
2024年12月31日
000
AI前沿

什么阻碍了数字孪生的演进和应用？

数字孪生技术具有巨大的潜力，它能够创建物理对象、流程和环境的数字复制品，可应用于各个行业，从复制危险环境到展示用于远程培训的航天器。麦肯锡最近的分析表明，人们对数字孪生的兴趣非常浓…

点点
2024年10月24日
000
AI前沿

用于训练 Stable Diffusion 的数据集背后的组织声称已经删除了 CSAM

德国研究机构LAION创建了用于训练Stable Diffusion和其他生成式 AI 模型的数据，该机构发布了一个新数据集，声称该数据集“已彻底清除已知的疑似儿童性虐待材料 (C…

王浩然
2024年8月31日
000
AI前沿

数据新时代的交易枢纽：Carbon Arc打造授权交易数据市场，赋能LLMs与企业应用

在数据被誉为“新石油”的当今时代，数据的重要性不言而喻。然而，尽管数据被视为一种宝贵的资源，但其交易与流通却远不如石油那样顺畅。数据的获取往往伴随着法律纠纷与版权问题，使得企业在追…

王浩然
2025年3月24日
000
AI前沿

利用人工智能代理优化公司工作流程：神话还是现实？

一个问题随着越来越多的大公司投资人工智能代理，将其视为提高运营效率的未来，越来越多的怀疑论者也开始涌现。虽然人们对这些技术的潜力感到兴奋，但许多组织发现，现实往往与炒作的程度不符…

点点
2024年11月6日
000
AI前沿

Turnitin 首席产品官 Annie Chechitelli – 访谈系列

Annie Chechitelli是 Turnitin 的首席产品官，负责监督 Turnitin 应用程序套件，包括学术诚信、评分和反馈以及评估功能。 Turnitin是一家全球性…

点点
2024年9月17日
000
AI前沿

Opera浏览器宣布推出全新代理功能‌

在浏览器市场日益激烈的竞争中，Opera再次展现其创新精神，为用户带来了一项突破性的新功能。近日，Opera官方宣布，其最新版本的浏览器中将集成一个全新的代理特性，旨在为用户提供更…

王浩然
2025年3月4日
000
AI前沿

量子媒体与娱乐营销总监 Skip Levens – 访谈系列

Skip Levens是 Quantum 的产品负责人和 AI 策略师，Quantum 是 AI 和非结构化数据数据管理解决方案领域的领导者。他目前负责推动 Quantum 端到端…

点点
2024年10月16日
000
AI前沿

Meta 的 Movie Gen AI 视频生成器能够制作真正的电影，包括音乐

Meta 的 AI 之旅将不可避免地将其带入新兴的 AI 视频领域。现在，马克·扎克伯格领导的这家公司推出了 Movie Gen，这是另一款能够通过简短的文本提示制作出逼真视频的视…

王浩然
2024年10月10日
000
AI前沿

因卡马拉·哈里斯深度伪造案，法官阻止加州实施新 AI 法

周三，一名联邦法官阻止了加州一项新的人工智能法律的通过，而该法律刚由州长加文·纽森签署，不到两周。签署 AB 2839 后不久，纽森表示，该法律可能被用来迫使埃隆·马斯克删除他转发…

王浩然
2024年10月4日
000
AI前沿

“strawberry”问题：如何克服人工智能的局限性

到目前为止，ChatGPT 和 Claude 等大型语言模型 ( LLM ) 已成为全球的日常用语。许多人开始担心人工智能会抢走他们的工作，因此，几乎所有基于 LLM 的系统都无法…

王浩然
2024年10月15日
000
AI前沿

埃隆·马斯克称特斯拉“无需”授权 xAI 模型

埃隆·马斯克否认了有关他的一家公司特斯拉曾与另一家公司 xAI 讨论分享收入，以便后者可以使用这家初创公司的人工智能模型的报道。《华尔街日报》报道称，根据向投资者描述的拟议协议，…

王浩然
2024年9月10日
000