Gemini 2.0 Flash 开启实时多模态 AI 新时代

Gemini 2.0 Flash 开启实时多模态 AI 新时代

谷歌本周发布了Gemini 2.0 Flash ,为用户提供了一种与周围环境视频进行实时互动的方式,这为企业和消费者使用技术方式的重大转变奠定了基础。

此次发布以及 OpenAI、微软和其他公司发布的公告都是“多模态人工智能”技术领域变革性飞跃的一部分。该技术允许你拍摄进入计算机或手机的视频(或音频或图像),并对其进行提问。

这也标志着谷歌与其主要竞争对手 OpenAI 和微软在 AI 领域争夺主导地位的竞争愈演愈烈。但更重要的是,它似乎正在定义下一个交互式代理计算时代。

在我看来,人工智能领域的这一时刻就像是“iPhone 时刻”,指的是 2007 年至 2008 年,当时苹果公司发布了 iPhone,通过与互联网的连接和流畅的用户界面,让人们可以在口袋里装上一台功能强大的计算机,从而改变了人们的日常生活。

尽管 OpenAI 的 ChatGPT 可能在 2022 年 11 月凭借其强大的类人聊天机器人开启了这一最新的人工智能时刻,但谷歌在 2024 年底的发布感觉像是这一时刻的重要延续——当时很多观察人士担心人工智能技术的改进可能会放缓。  

Gemini 2.0 Flash:人工智能多模态革命的催化剂

Google 的 Gemini 2.0 Flash 提供了突破性的功能,可以与通过智能手机捕获的视频进行实时交互。与之前的舞台演示(例如 Google 五月份的 Project Astra)不同,这项技术现在可以通过Google 的 AI Studio供日常用户使用。

我鼓励您亲自尝试一下。我用它来查看和与周围环境互动 — — 对我来说,今天早上就是厨房和餐厅。您可以立即看到这如何为教育和其他用例带来突破。您可以看到为什么内容创作者 Jerrod Lew昨天在 X 上使用 Gemini 2.0 实时 AI 在 Adob​​e Premiere Pro 中编辑视频时感到惊讶。“这绝对是疯了,”他说,因为尽管他是一名新手用户,但谷歌在几秒钟内就指导他如何添加基本的模糊效果。 

Gemini 2.0 Flash 开启实时多模态 AI 新时代

著名 AI 开发者、Red Dragon AI 联合创始人 Sam Witteveen 获得了 Gemini 2.0 Flash 的早期测试资格,他强调 Gemini Flash 的速度(是谷歌迄今为止的旗舰产品 Gemini 1.5 Pro 的两倍)和“极其便宜”的价格,使它不仅是开发者测试新产品的展示平台,也是企业管理 AI 预算的实用工具。(需要说明的是,谷歌尚未公布 Gemini 2.0 Flash 的定价。这是一个免费预览版。但 Witteveen 的假设是基于谷歌 Gemini 1.5 系列的先例。)

对于开发人员来说,这些多模式实时功能的实时 API 提供了巨大的潜力,因为它们可以无缝集成到应用程序中。该 API 也可供使用;提供了一个演示应用程序。这是Google 面向开发人员的博客文章。

程序员 Simon Willison称流式 API 是下一个级别的:“这些东西直接来自科幻小说:能够与有能力的 LLM 进行音频对话,讨论它可以通过你的相机‘看到’的事物,这是‘我们生活在未来’的时刻之一。” 他指出,你可以要求 API 启用代码执行模式,这让模型可以编写 Python 代码、运行它并将结果视为其响应的一部分——所有这些都是代理未来的一部分。

这项技术显然预示着新的应用生态系统和用户期望。想象一下,在演示过程中能够分析实时视频、提出编辑建议或实时排除故障。

是的,这项技术对于消费者来说很酷,但对于企业用户和领导者来说,掌握它同样重要。新功能是全新的工作和与技术互动方式的基础——预示着即将到来的生产力提升和创造性的工作流程。

竞争格局:定义未来的竞赛

谷歌 Gemini 2.0 Flash 于周三发布,与此同时,谷歌及其主要竞争对手也纷纷发布新产品,力争在年底前推出最新技术。这些公司都承诺提供消费者可用的多模式功能 — — 实时视频互动、图像生成和语音合成 — — 但其中一些功能尚未完全成熟,甚至尚未完全可用。 

如此火爆的一个原因是,其中一些公司会向员工发放奖金,鼓励他们在年底前推出关键产品。另一个原因是,当他们率先推出新功能时,他们可以获得炫耀的资本。他们可以通过率先推出新功能来吸引大量用户,正如 OpenAI 在 2022 年所展示的那样,当时其 ChatGPT 成为历史上增长最快的消费产品。尽管谷歌拥有类似的技术,但它没有为公开发布做好准备,因此措手不及。从那时起,观察人士就一直严厉批评谷歌行动太慢。 

以下是其他公司在过去几天宣布的消息,它们都有助于开启多模式 AI 的新时代。

  1. OpenAI 的带视觉的高级语音模式:昨天推出但仍在推广中,它提供实时视频分析和屏幕共享等功能。虽然前景看好,但早期访问问题限制了它的直接影响。例如,尽管我是 Plus 订阅者,但我还无法访问它。 
  2. 微软的 Copilot Vision:上周,微软推出了类似的技术预览版— 仅面向其部分 Pro 用户。其浏览器集成设计暗示了企业应用程序,但缺乏 Gemini 2.0 的精致和可访问性。此外,微软还发布了一款快速、强大的 Phi-4 型号。
  3. Anthropic 的 Claude 3.5 Haiku:Anthropic 迄今为止一直在与 OpenAI 激烈竞争大型语言模型 (LLM) 的领导地位,但在多模式方面尚未推出任何前沿技术。它刚刚发布了 3.5 Haiku,以效率和速度著称。但它专注于降低成本和缩小模型尺寸,这与谷歌最新版本的突破性功能以及 OpenAI 的带视觉的语音模式形成了鲜明对比。

应对挑战、抓住机遇

虽然这些技术具有革命性,但挑战依然存在:

  • 可访问性和可扩展性:OpenAI 和 Microsoft 都面临推出瓶颈,而 Google 必须确保避免类似的陷阱。Go​​ogle 提到,其直播功能 (Project Astra) 的上下文记忆限制为最多 10 分钟的会话内记忆,尽管随着时间的推移,这一限制可能会增加。
  • 隐私和安全:分析实时视频或个人数据的 AI 系统需要强大的保护措施来维持信任。Google 的 Gemini 2.0 Flash 模型内置了原生图像生成功能、第三方 API 访问权限以及利用 Google 搜索和执行代码的能力。所有这些都很强大,但可能会让某些人在玩弄这些东西时很容易意外泄露私人信息。
  • 生态系统整合:随着微软利用其企业套件并且谷歌将自己定位于 Chrome,问题依然存在:哪个平台能为企业提供最无缝的体验?

然而,该技术的潜在优势足以抵消所有这些障碍,毫无疑问,开发人员和企业公司将在明年争相采用该技术。 

结论:谷歌暂时引领新曙光 

正如开发人员 Sam Witteveen 和我在周三晚上谷歌发布公告后录制的播客中讨论的那样,Gemini 2.0 Flash 确实是一个令人印象深刻的版本,标志着多模态人工智能成为现实。谷歌的进步设定了新的基准,尽管这种优势可能转瞬即逝。OpenAI 和微软紧随其后。我们仍处于这场革命的早期阶段,就像 2008 年一样,尽管 iPhone 已经发布,但尚不清楚谷歌、诺基亚和 RIM 将如何应对。历史表明诺基亚和 RIM 没有,他们倒闭了。谷歌的应对非常好,并让 iPhone 一试身手。 

同样,微软和 OpenAI 显然也在与谷歌展开竞争。与此同时,苹果已决定在该技术上展开合作,并于本周宣布与 ChatGPT 进一步整合——但它肯定不会试图在这个多模式产品的新时代彻底获胜。 

在我们的播客中,Sam 和我还谈到了 Google 在浏览器领域的特殊战略优势。例如,其发布的 Project Mariner(Chrome 扩展程序)允许您执行现实世界的 Web 浏览任务,其功能甚至比 Anthropic(称为Computer Use)和 Microsoft 的OmniParser(仍在研究中)提供的竞争技术还要多。(Anthropic 的功能确实可以让您更多地访问计算机的本地资源。)所有这些使 Google 在 2005 年推动代理 AI 技术的竞赛中也处于领先地位,即使 Microsoft在向企业提供代理解决方案的实际执行方面似乎处于领先地位。AI 代理可以自主执行复杂任务,几乎不需要人工干预 — 例如,它们很快就会在进行电子商务、股票交易甚至房地产购买之前进行高级研究任务和数据库检查。

谷歌专注于让开发者和消费者都能使用这些 Gemini 2.0 功能,这是明智之举,因为它确保了它能够通过全面的计划来应对行业问题。到目前为止,谷歌一直被认为不像微软那样积极关注开发者。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gemini-2-flash-kai-qi-shi-shi-duo-mo-tai-ai-xin-shi-dai

Like (0)
王 浩然的头像王 浩然作者
Previous 5天前
Next 5天前

相关推荐

发表回复

Please Login to Comment