Gemini 2.0 Flash 开启实时多模态 AI 新时代

王浩然 • 2024年12月17日下午8:00 • AI前沿 • 147 views

谷歌本周发布了Gemini 2.0 Flash ，为用户提供了一种与周围环境视频进行实时互动的方式，这为企业和消费者使用技术方式的重大转变奠定了基础。

此次发布以及 OpenAI、微软和其他公司发布的公告都是“多模态人工智能”技术领域变革性飞跃的一部分。该技术允许你拍摄进入计算机或手机的视频（或音频或图像），并对其进行提问。

这也标志着谷歌与其主要竞争对手 OpenAI 和微软在 AI 领域争夺主导地位的竞争愈演愈烈。但更重要的是，它似乎正在定义下一个交互式代理计算时代。

在我看来，人工智能领域的这一时刻就像是“iPhone 时刻”，指的是 2007 年至 2008 年，当时苹果公司发布了 iPhone，通过与互联网的连接和流畅的用户界面，让人们可以在口袋里装上一台功能强大的计算机，从而改变了人们的日常生活。

尽管 OpenAI 的 ChatGPT 可能在 2022 年 11 月凭借其强大的类人聊天机器人开启了这一最新的人工智能时刻，但谷歌在 2024 年底的发布感觉像是这一时刻的重要延续——当时很多观察人士担心人工智能技术的改进可能会放缓。

Gemini 2.0 Flash：人工智能多模态革命的催化剂

Google 的 Gemini 2.0 Flash 提供了突破性的功能，可以与通过智能手机捕获的视频进行实时交互。与之前的舞台演示（例如 Google 五月份的 Project Astra）不同，这项技术现在可以通过Google 的 AI Studio供日常用户使用。

我鼓励您亲自尝试一下。我用它来查看和与周围环境互动 — — 对我来说，今天早上就是厨房和餐厅。您可以立即看到这如何为教育和其他用例带来突破。您可以看到为什么内容创作者 Jerrod Lew昨天在 X 上使用 Gemini 2.0 实时 AI 在 Adobe Premiere Pro 中编辑视频时感到惊讶。“这绝对是疯了，”他说，因为尽管他是一名新手用户，但谷歌在几秒钟内就指导他如何添加基本的模糊效果。

著名 AI 开发者、Red Dragon AI 联合创始人 Sam Witteveen 获得了 Gemini 2.0 Flash 的早期测试资格，他强调 Gemini Flash 的速度（是谷歌迄今为止的旗舰产品 Gemini 1.5 Pro 的两倍）和“极其便宜”的价格，使它不仅是开发者测试新产品的展示平台，也是企业管理 AI 预算的实用工具。（需要说明的是，谷歌尚未公布 Gemini 2.0 Flash 的定价。这是一个免费预览版。但 Witteveen 的假设是基于谷歌 Gemini 1.5 系列的先例。）

对于开发人员来说，这些多模式实时功能的实时 API 提供了巨大的潜力，因为它们可以无缝集成到应用程序中。该 API 也可供使用；提供了一个演示应用程序。这是Google 面向开发人员的博客文章。

程序员 Simon Willison称流式 API 是下一个级别的：“这些东西直接来自科幻小说：能够与有能力的 LLM 进行音频对话，讨论它可以通过你的相机‘看到’的事物，这是‘我们生活在未来’的时刻之一。” 他指出，你可以要求 API 启用代码执行模式，这让模型可以编写 Python 代码、运行它并将结果视为其响应的一部分——所有这些都是代理未来的一部分。

这项技术显然预示着新的应用生态系统和用户期望。想象一下，在演示过程中能够分析实时视频、提出编辑建议或实时排除故障。

是的，这项技术对于消费者来说很酷，但对于企业用户和领导者来说，掌握它同样重要。新功能是全新的工作和与技术互动方式的基础——预示着即将到来的生产力提升和创造性的工作流程。

竞争格局：定义未来的竞赛

谷歌 Gemini 2.0 Flash 于周三发布，与此同时，谷歌及其主要竞争对手也纷纷发布新产品，力争在年底前推出最新技术。这些公司都承诺提供消费者可用的多模式功能 — — 实时视频互动、图像生成和语音合成 — — 但其中一些功能尚未完全成熟，甚至尚未完全可用。

如此火爆的一个原因是，其中一些公司会向员工发放奖金，鼓励他们在年底前推出关键产品。另一个原因是，当他们率先推出新功能时，他们可以获得炫耀的资本。他们可以通过率先推出新功能来吸引大量用户，正如 OpenAI 在 2022 年所展示的那样，当时其 ChatGPT 成为历史上增长最快的消费产品。尽管谷歌拥有类似的技术，但它没有为公开发布做好准备，因此措手不及。从那时起，观察人士就一直严厉批评谷歌行动太慢。

以下是其他公司在过去几天宣布的消息，它们都有助于开启多模式 AI 的新时代。

OpenAI 的带视觉的高级语音模式：昨天推出但仍在推广中，它提供实时视频分析和屏幕共享等功能。虽然前景看好，但早期访问问题限制了它的直接影响。例如，尽管我是 Plus 订阅者，但我还无法访问它。
微软的 Copilot Vision：上周，微软推出了类似的技术预览版— 仅面向其部分 Pro 用户。其浏览器集成设计暗示了企业应用程序，但缺乏 Gemini 2.0 的精致和可访问性。此外，微软还发布了一款快速、强大的 Phi-4 型号。
Anthropic 的 Claude 3.5 Haiku：Anthropic 迄今为止一直在与 OpenAI 激烈竞争大型语言模型 (LLM) 的领导地位，但在多模式方面尚未推出任何前沿技术。它刚刚发布了 3.5 Haiku，以效率和速度著称。但它专注于降低成本和缩小模型尺寸，这与谷歌最新版本的突破性功能以及 OpenAI 的带视觉的语音模式形成了鲜明对比。

应对挑战、抓住机遇

虽然这些技术具有革命性，但挑战依然存在：

可访问性和可扩展性：OpenAI 和 Microsoft 都面临推出瓶颈，而 Google 必须确保避免类似的陷阱。Google 提到，其直播功能 (Project Astra) 的上下文记忆限制为最多 10 分钟的会话内记忆，尽管随着时间的推移，这一限制可能会增加。
隐私和安全：分析实时视频或个人数据的 AI 系统需要强大的保护措施来维持信任。Google 的 Gemini 2.0 Flash 模型内置了原生图像生成功能、第三方 API 访问权限以及利用 Google 搜索和执行代码的能力。所有这些都很强大，但可能会让某些人在玩弄这些东西时很容易意外泄露私人信息。
生态系统整合：随着微软利用其企业套件并且谷歌将自己定位于 Chrome，问题依然存在：哪个平台能为企业提供最无缝的体验？

然而，该技术的潜在优势足以抵消所有这些障碍，毫无疑问，开发人员和企业公司将在明年争相采用该技术。

结论：谷歌暂时引领新曙光

正如开发人员 Sam Witteveen 和我在周三晚上谷歌发布公告后录制的播客中讨论的那样，Gemini 2.0 Flash 确实是一个令人印象深刻的版本，标志着多模态人工智能成为现实。谷歌的进步设定了新的基准，尽管这种优势可能转瞬即逝。OpenAI 和微软紧随其后。我们仍处于这场革命的早期阶段，就像 2008 年一样，尽管 iPhone 已经发布，但尚不清楚谷歌、诺基亚和 RIM 将如何应对。历史表明诺基亚和 RIM 没有，他们倒闭了。谷歌的应对非常好，并让 iPhone 一试身手。

同样，微软和 OpenAI 显然也在与谷歌展开竞争。与此同时，苹果已决定在该技术上展开合作，并于本周宣布与 ChatGPT 进一步整合——但它肯定不会试图在这个多模式产品的新时代彻底获胜。

在我们的播客中，Sam 和我还谈到了 Google 在浏览器领域的特殊战略优势。例如，其发布的 Project Mariner（Chrome 扩展程序）允许您执行现实世界的 Web 浏览任务，其功能甚至比 Anthropic（称为Computer Use）和 Microsoft 的OmniParser（仍在研究中）提供的竞争技术还要多。（Anthropic 的功能确实可以让您更多地访问计算机的本地资源。）所有这些使 Google 在 2005 年推动代理 AI 技术的竞赛中也处于领先地位，即使 Microsoft在向企业提供代理解决方案的实际执行方面似乎处于领先地位。AI 代理可以自主执行复杂任务，几乎不需要人工干预 — 例如，它们很快就会在进行电子商务、股票交易甚至房地产购买之前进行高级研究任务和数据库检查。

谷歌专注于让开发者和消费者都能使用这些 Gemini 2.0 功能，这是明智之举，因为它确保了它能够通过全面的计划来应对行业问题。到目前为止，谷歌一直被认为不像微软那样积极关注开发者。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/gemini-2-flash-kai-qi-shi-shi-duo-mo-tai-ai-xin-shi-dai

Like (0)

王浩然作者

0 0

新的 LLM 优化技术可将内存成本降低高达 75%

Previous 2024年12月17日

微软小型 AI 模型击败大型模型：效率之王 Phi-4

Next 2024年12月17日

AI前沿

Demed L’Her，DigitalRoute 首席技术官 – 访谈系列

Demed L’Her担任 DigitalRoute 的首席技术官，是一名软件高管，在企业软件战略方面拥有丰富的经验。他不仅拥有深厚的学术背景，而且在领导和技术方面也采…

点点
2024年10月12日
000
AI前沿

新的AI产品创建平台Arcade设计了这款项链

化妆品零售商 Eve 和设计市场 Minted 的创始人 Mariam Naficy 长期以来一直致力于支持独立艺术家并帮助他们销售产品。她的最新创业项目Arcade AI是一个新…

王浩然
2024年10月28日
000
AI前沿

Nvidia 在卡内基梅隆大学成立人工智能、机器人技术社区

该计划旨在加强具有人工智能技术转型潜力的社区之间的公私合作伙伴关系

点点
2024年10月22日
000
AI前沿

人工智能酒店计划在拉斯维加斯开业：CES 2025

该酒店共有 300 间客房，包括公寓和酒店客房，其中 60% 专供酒店客人使用，40% 专供公寓使用一家全新的人工智能酒店即将在拉斯维加斯开业，并在 CES上亮相。当我们坐在 …

王浩然
2025年1月11日
000
AI前沿

Microsoft Outlook 现在允许您创建个性化的 AI 主题

微软周四宣布，Outlook 将推出一项新功能，允许您使用生成式 AI 根据个人喜好创建主题。拥有 Copilot Pro 消费者订阅和启用了 Copilot 的企业帐户的用户可…

王浩然
2024年11月8日
000
AI前沿

拜登总统发布首份关于人工智能的国家安全备忘录

拜登总统发布了美国首份关于人工智能的国家安全备忘录 (NSM)，阐述了美国如何从安全角度对待这项技术。该备忘录以拜登早先关于人工智能的行政命令为基础，其前提是尖端人工智能发展将在…

点点
2024年10月26日
000
AI前沿

2024 年人工智能的四大新闻和 2025 年的一个重要预测

从各方面来看，2024 年都是人工智能迄今为止最重要的一年——至少就该技术的商业化而言。 2022 年末 ChatGPT 的推出推动了大型语言模型 (LLM) 热潮，这一热潮丝毫没…

王浩然
2024年12月24日
000
AI前沿

今天是选举日，所有人工智能（除了一个）都采取了负责任的行动

在周二投票结束之前，大多数主要的人工智能聊天机器人都不会回答有关美国总统选举结果的问题。但内置在 X（前身为 Twitter）中的聊天机器人 Grok 却愿意回答，而且经常会出错。…

王浩然
2024年11月6日
000
AI前沿

苹果在iOS 18.4中增加AI驱动的应用审查摘要‌

苹果公司近日宣布，在其即将推出的iOS 18.4版本中，将引入一项创新功能——AI驱动的应用审查摘要。这一新特性旨在通过人工智能技术，为用户提供更加简洁、明了的应用评价概览，从而帮…

王浩然
2025年3月7日
000
AI前沿

亚马逊利用 Anthropic 的人工智能来改造 Alexa

亚马逊将通过与人工智能公司Anthropic建立战略合作伙伴关系来升级其 Alexa 语音助手。据路透社首次报道，亚马逊计划推出代号为“Remarkable”的新版 Alexa，它…

AI News
2024年9月1日
000
AI前沿

Fal.Con 2024：CrowdStrike 推出弹性设计框架以加强全球网络安全

CrowdStrike首席执行官乔治·库尔茨 (George Kurtz) 在Fal.Con 2024开幕式上向客户和合作伙伴表示感谢，他表示，如果没有他们的帮助，公司不可能度过今…

王浩然
2024年9月22日
000
AI前沿

革命性的人工智能模型无需预定义知识即可预测物理系统

Archetype AI研究人员最近的一项研究揭示了一种能够泛化各种物理信号和现象的开创性 AI 模型，标志着人工智能领域的一次重大飞跃。这篇题为“物理信号的现象学 AI 基础模型…

点点
2024年10月18日
000
AI前沿

医生称人工智能正在给患者护理带来麻烦

如今，时不时就会有研究声称人工智能在诊断健康问题方面比人类医生更胜一筹。这些研究之所以引人注目，是因为美国的医疗体系严重崩溃，每个人都在寻找解决方案。人工智能为医生提供了一个潜在的…

王浩然
2024年12月29日
000
AI前沿

人工智能悖论：未来的尖端工具如何成为危险的网络威胁（以及需要做好哪些准备）

人工智能正在改变企业的运营方式。虽然这种转变在很大程度上是积极的，但它也带来了一些独特的网络安全问题。像agentic AI这样的下一代人工智能应用对组织的安全态势构成了特别值得注…

王浩然
2025年2月4日
000
AI前沿

OpenAI 推出其谷歌挑战者 ChatGPT Search

OpenAI 的谷歌挑战者终于来了。该公司周四推出了ChatGPT Search，这是今年夏天推出的 SearchGPT 原型的升级版。OpenAI 表示，ChatGPT Sea…

王浩然
2024年11月2日
000
AI前沿

Meta下一代LLAMA模型或将升级语音功能‌

近日，科技巨头Meta在人工智能领域再传新动向。据悉，Meta正在研发的下一代LLAMA（Large Language Model Family of AI Algorithms）…

王浩然
2025年3月9日
000
AI前沿

开源矢量数据库供应商通过云更新瞄准企业 AI 成本

随着生成式人工智能的应用在过去几年中急剧增长，矢量数据库已经从尖端技术发展成为必不可少的企业基础设施。随着矢量数据库变得越来越重要，企业越来越关注性能和成本。开源Mi…

王浩然
2024年11月21日
000
AI前沿

AI工作取代：是逐渐发生还是突然到来？‌

人工智能（AI）正在迅速改变我们的工作方式，无论是通过自动化任务、作为辅助工具，还是从普通英语生成文本、图像、视频和软件。然而，尽管关于AI将彻底改变工作的讨论甚嚣尘上，但广泛的工…

王浩然
2025年3月24日
000
AI前沿

文学作品机器翻译的新方法

将《战争与和平》等文学经典翻译成其他语言往往会导致作者的独特风格和文化差异消失。解决文学翻译中这一长期存在的挑战对于保留作品精髓并让其在全球范围内传播至关重要。TransAgent…

点点
2024年10月4日
000
AI前沿

AI 编码初创公司 Poolside 从 eBay、Nvidia 等公司筹集 5 亿美元

人工智能软件开发平台Poolside已筹集5 亿美元新资本。这笔资金来自贝恩资本风险投资公司 (Bain Capital Ventures) 牵头的 B 轮融资，参与融资的还有 …

点点
2024年10月3日
000