谷歌推出 Gemini 2.0 Pro、Flash-Lite 并将推理模型 Flash Thinking 连接到 YouTube、地图和搜索

谷歌推出 Gemini 2.0 Pro、Flash-Lite 并将推理模型 Flash Thinking 连接到 YouTube、地图和搜索

谷歌Gemini 系列人工智能大型语言模型 (LLM) 在近一年前刚开始并不顺利,出现了一些令人尴尬的图像生成错误事件,但自那以后,它一直在稳步改进,而且该公司似乎有意让其第二代产品——Gemini 2.0——成为迄今为止面向消费者和企业的最大、最好的产品。

今天,该公司宣布全面发布Gemini 2.0 Flash,推出Gemini 2.0 Flash-Lite,并推出Gemini 2.0 Pro实验版本。

这些模型旨在支持开发人员和企业,现在可以通过 Google AI Studio 和 Vertex AI 访问,其中 Flash-Lite 处于公开预览阶段,Pro 可供早期测试。

谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 在公司的公告博客文章中写道:“所有这些模型在发布时都将具有多模式输入和文本输出的功能,并且未来几个月将有更多模式可供普遍使用。”这表明,尽管DeepSeekOpenAI等竞争对手不断推出强大的产品,但谷歌仍具有一定的优势。

谷歌发挥其多式联运优势

DeepSeek-R1 和OpenAI 的新 o3-mini 模型都不能接受多模式输入——即图像和文件上传或附件。

虽然 R1 可以在其网站和移动应用聊天上接受它们,但该模型执行光学字符识别(OCR),这是一项已有 60 多年历史的技术,仅从这些上传中提取文本 – 并不真正理解或分析其中包含的任何其他特征。

然而,两者都是一类新的“推理”模型,它们会故意花更多时间思考答案,反思“思路链”及其答案的正确性。这与 Gemini 2.0 pro 系列等典型的 LLM 不同,因此 Gemini 2.0、DeepSeek-R1 和 OpenAI o3 之间的比较有点像苹果和橘子之间的比较。

但今天谷歌在推理方面也有一些新消息:谷歌首席执行官 Sundar Pichai 在社交网络 X上宣布, iOS 和 Android 版Google Gemini移动应用已更新,加入了谷歌自己的竞争对手推理模型 Gemini 2.0 Flash Thinking。该模型可以连接到谷歌地图、YouTube 和谷歌搜索,从而实现一系列全新的人工智能研究和互动,没有 DeepSeek 和 OpenAI 等服务的新贵根本无法与之匹敌。

我在撰写本文时在 iPhone 上的 Google Gemini iOS 应用上尝试了它,根据我的初步查询,它令人印象深刻地思考了上个月最受欢迎的 10 个 YouTube 视频的共同点,还在几秒钟内为我提供了附近医生办公室和营业/关门时间的表格。

Gemini 2.0 Flash 正式发布

Gemini 2.0 Flash 模型最初于 12 月作为实验版本推出,现已准备好投入生产。

专为高效AI应用而设计,提供低延迟响应并支持大规模多模态推理。

与竞争对手相比,它的一个主要优势在于它的上下文窗口,或者用户可以以提示的形式添加的令牌数量,并在与 LLM 驱动的聊天机器人或应用程序编程接口 (API) 的一次来回交互中接收回来。

尽管许多领先模型(例如 OpenAI 上周推出的新款 o3-mini)仅支持 200,000 个或更少的 token(约相当于一本 400 到 500 页的小说),但 Gemini 2.0 Flash 却支持 100 万个 token,这意味着它能够处理海量信息,特别适用于高频和大规模任务。

Gemini 2.0 Flash-Lite 的到来将成本曲线降至最低

同时,Gemini 2.0 Flash-Lite 是一款全新的 LLM,旨在提供经济高效的 AI 解决方案,同时不影响质量。

Google DeepMind 表示,在第三方基准测试(如 MMLU Pro(77.6% vs. 67.3%)和 Bird SQL 编程(57.4% vs. 45.6%))上,Flash-Lite 的表现优于其全尺寸(参数数量更多)的前代产品 Gemini 1.5 Flash,同时保持相同的价格和速度。

它还支持多模式输入,并具有 100 万个标记的上下文窗口,类似于完整的 Flash 模型。

目前,Flash-Lite 可通过 Google AI Studio 和 Vertex AI 进行公开预览,预计将在未来几周内全面上市。

如下表所示,Gemini 2.0 Flash-Lite 的价格为每百万代币 0.075 美元(输入)和每百万代币 0.30 美元(输出)。Flash-Lite 被定位为开发人员非常实惠的选择,在大多数基准测试中均优于 Gemini 1.5 Flash,同时保持相同的成本结构。

谷歌推出 Gemini 2.0 Pro、Flash-Lite 并将推理模型 Flash Thinking 连接到 YouTube、地图和搜索

Logan Kilpatrick 强调了这些模型的经济性和价值,并在 X 上表示:“Gemini 2.0 Flash 是所有 LLM 中最具价值的道具,现在是时候构建了!”

确实,与可通过提供商 API 获得的其他领先的传统 LLM 相比,例如OpenAI 4o-mini(每 100 万个代币输入/输出 0.15 美元/0.6 美元)、Anthropic Claude(每 100 万个代币输入/输出 0.8 美元/4 美元!)甚至 DeepSeek 的传统 LLM V3(0.14 美元/0.28 美元),Gemini 2.0 Flash 似乎是最物有所值的。

Gemini 2.0 Pro 已进入实验阶段,提供 200 万个 token 上下文窗口

对于需要更高级 AI 功能的用户,Gemini 2.0 Pro(实验)模型现已可供测试。

Google DeepMind 将此描述为其编码性能最强的模型,能够处理复杂的提示。它具有 200 万个标记上下文窗口和改进的推理能力,能够集成 Google 搜索和代码执行等外部工具。

Red Dragon AI 联合创始人兼首席执行官 Sam Witteveen 是 Google 机器学习的外部开发专家,他在 YouTube 评论中讨论了 Pro 模型。“新的 Gemini 2.0 Pro 模型有一个 200 万个令牌上下文窗口,支持工具、代码执行、函数调用和 Google 搜索基础——我们在 Pro 1.5 中拥有的一切,但有所改进。”

他还提到了谷歌在人工智能开发方面的迭代方法:“谷歌战略的一个关键区别是,他们会在模型正式发布(GA,普遍可访问)之前发布实验版本,从而根据反馈进行快速迭代。”

性能基准测试进一步证明了 Gemini 2.0 模型系列的能力。例如,Gemini 2.0 Pro 在推理、多语言理解和长上下文处理等任务上的表现优于 Flash 和 Flash-Lite。

人工智能安全及未来发展

除了这些更新之外,Google DeepMind 还为其 Gemini 2.0 模型实施了新的安全措施。该公司正在利用强化学习技术来提高响应准确性,使用人工智能来批评和改进自己的输出。此外,还使用自动安全测试来识别漏洞,包括间接提示注入威胁。

展望未来,Google DeepMind 计划扩展 Gemini 2.0 模型系列的功能,预计未来几个月内将推出除文本之外的其他模式。

通过这些更新,谷歌正在加强其在人工智能开发方面的推动力,提供一系列专为效率、经济性和高级问题解决而设计的模型,并用自己的模型套件来应对 DeepSeek 的崛起,这些模型从功能强大到非常强大且极其实惠,再到稍微便宜(但仍然相当)实惠。

这是否足以帮助谷歌蚕食部分企业 AI 市场?该市场曾被 OpenAI 主导,现在已被 DeepSeek 颠覆。我们将持续跟踪并告诉您最新动态!

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gu-ge-tui-chu-gemini-2-pro-flashlite-bing-jiang-tui-li-mo

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年2月5日
Next 2025年2月6日

相关推荐

发表回复

Please Login to Comment