谷歌今天发布了Gemini 2.0,标志着其向能够独立完成复杂任务的 AI 系统迈出了雄心勃勃的一步,并引入了原生图像生成和多语言音频功能——这些功能使这家科技巨头在日益激烈的 AI 主导地位争夺战中与OpenAI和Anthropic展开直接竞争。
此次发布恰逢谷歌首次推出 Gemini一周年,正值人工智能发展的关键时刻。这些新的“代理”人工智能系统不仅可以简单地响应查询,还可以理解细微的上下文,提前规划多个步骤,并代表用户采取监督行动。
谷歌的新人工智能助手将如何重塑日常数字生活
在最近的一次新闻发布会上,Gemini 产品管理总监 Tulsee Doshi 概述了该系统的增强功能,同时演示了实时图像生成和多语言对话。“Gemini 2.0 带来了增强的性能和新功能,例如原生图像和多语言音频生成,”Doshi 解释道。“它还具有原生智能工具使用功能,这意味着它可以直接访问 Google 产品,例如搜索,甚至可以执行代码。”
初始版本以Gemini 2.0 Flash为中心,这是一个实验版本,谷歌声称其运行速度是其前代产品的两倍,同时超越了更强大型号的功能。这代表了一项重大的技术成就,因为之前的速度提升通常是以功能减少为代价的。
新一代人工智能代理有望改变我们的工作方式
或许最重要的是,谷歌推出了三个基于 Gemini 2.0 架构的原型 AI 代理,展示了该公司对 AI 未来的愿景。Project Astra是一款升级版通用 AI 助手,展示了其在访问谷歌工具和保留先前交互的上下文记忆的同时,能够跨多种语言进行复杂对话的能力。
Google DeepMind 集团产品经理徐碧波在现场演示中解释道:“Project Astra 现在拥有长达 10 分钟的会话记忆,可以记住您过去与之进行的对话,因此您可以获得更有帮助、更个性化的体验。”该系统可以在语言之间顺利转换,并通过 Google 搜索和地图访问实时信息,这表明其集成度在消费级 AI 产品中前所未有。
谷歌瞄准开发者社区,企业 AI 之争愈演愈烈
对于开发者和企业客户,谷歌推出了Project Mariner和Jules,这是两个专门用于自动执行复杂技术任务的 AI 代理。Project Mariner 以 Chrome 扩展程序的形式进行演示,在针对真实网络任务的 WebVoyager 基准测试中取得了令人印象深刻的 83.5% 的成功率 — — 与之前自主网络导航的尝试相比,这是一个显着的进步。
“Project Mariner 是一个早期研究原型,旨在探索代理浏览网页和采取行动的能力,”Google 实验室产品管理总监 Jaclyn Konzelmann 表示。“根据WebVoyager 基准测试,Project Mariner 取得了令人印象深刻的 83.5% 的成绩,该基准测试了代理在端到端、真实网络任务上的表现。”
定制硅片和大规模:谷歌 AI 雄心背后的基础设施
支持这些进步的是谷歌第六代张量处理单元 (TPU) Trillium ,它现已向云客户全面开放。定制的 AI 加速器代表了对计算基础设施的巨额投资,谷歌在单个网络结构中部署了超过 100,000 个 Trillium 芯片。
AI 工作室和 Gemini API 团队的产品经理 Logan Kilpatrick 在新闻发布会上强调了这项基础设施投资的实际影响。“闪存使用量增长了 900% 以上,这真是令人难以置信,”Kilpatrick 说道。“你知道,我们在过去几个月里推出了六个实验模型,现在有数百万开发人员正在使用 Gemini。”
未来之路:自主人工智能时代的安全问题和竞争
谷歌向自主代理的转变或许是自 OpenAI 发布ChatGPT以来人工智能领域最重要的战略转折点。虽然竞争对手专注于增强大型语言模型的功能,但谷歌认为,未来属于能够主动导航数字环境并在最少人工干预的情况下完成复杂任务的人工智能系统。
这种能够思考、计划和行动的人工智能代理的愿景标志着对当前反应式人工智能助手范式的背离。这是一个冒险的赌注——自主系统本身会带来更大的安全问题和技术挑战——但如果成功,它可能会重塑竞争格局。该公司在定制硅片和基础设施方面的巨额投资表明,它已准备好在这个新方向上积极竞争。
然而,向更自主的人工智能系统过渡引发了新的安全和道德问题。谷歌强调了其对负责任开发的承诺,包括与可信赖的用户进行广泛的测试和内置安全措施。该公司逐步推出这些功能的方法,从开发人员访问和可信赖的测试人员开始,表明该公司意识到部署自主人工智能系统所涉及的潜在风险。
此次发布对谷歌来说正值关键时刻,因为它面临着来自竞争对手越来越大的压力,以及对人工智能安全性的严格审查。微软和OpenAI今年在人工智能开发方面取得了重大进展,而Anthropic等其他公司也获得了企业客户的青睐。
Gemini API 集团产品经理 Shrestha Basu Mallick 在新闻发布会上强调:“我们坚信,打造人工智能的唯一方法是从一开始就负责任。随着我们改进模型和代理,我们将继续优先考虑将安全和责任作为我们模型开发流程的关键要素。”
随着这些系统在现实世界中采取行动的能力越来越强,它们可能会从根本上重塑人们与技术的互动方式。 Gemini 2.0 的成功不仅可能决定谷歌在人工智能市场的地位,也可能决定人工智能发展的更广阔轨迹,因为整个行业正在向更加自主的系统迈进。
一年前,当谷歌推出 Gemini 的第一版时,人工智能领域被聊天机器人所主导,这些聊天机器人可以进行巧妙的对话,但在处理现实世界的任务时却举步维艰。现在,随着人工智能代理开始迈出走向自主的第一步,该行业正处于另一个转折点。问题不再是人工智能是否能理解我们,而是我们是否准备好让人工智能代表我们行事。谷歌押注我们能够理解——而且押注很大。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/google-gemini-2-zhe-hui-shi-zhen-zheng-zi-zhu-ren-gong-zhi