谷歌正试图利用其旗舰级生成式 AI 模型、应用和服务套件 Gemini 引起轰动。但 Gemini 是什么?如何使用它?它与其他生成式 AI 工具(如 OpenAI 的ChatGPT、Meta 的Llama和微软的Copilot )相比如何 )相比如何?
为了让您更轻松地跟上 Gemini 的最新发展,我们整理了这份便捷的指南,我们会在新的 Gemini 型号、功能以及有关 Google Gemini 计划的新闻发布时不断更新该指南。
什么是双子座?
Gemini 是 Google 长期承诺的下一代生成式 AI 模型系列。它由 Google 的 AI 研究实验室 DeepMind 和 Google Research 开发,有四种版本:
- 双子座超级
- 双子座专业版
- Gemini Flash,速度更快的“精简版”Pro
- Gemini Nano,有两种小型型号: Nano-1 和功能更强大的 Nano-2,后者可离线运行
所有 Gemini 模型都经过了原生多模式训练,也就是说,它们能够处理和分析的不仅仅是文本。谷歌表示,它们已经针对各种公开、专有和授权的音频、图像和视频、一组代码库和不同语言的文本进行了预先训练和微调。
这使得 Gemini 与谷歌自己的 LaMDA等模型区别开来 ,后者仅针对文本数据进行训练。LaMDA 无法理解或生成文本以外的任何内容(例如文章、电子邮件等),但 Gemini 模型不一定如此。
我们在此需要指出的是, 在公共数据上训练模型的道德和合法性 尚不明确,在某些情况下,数据所有者并不知情或不同意。谷歌制定了一项 人工智能赔偿政策 ,以保护某些谷歌云客户免于面临诉讼,但这项政策包含豁免条款。请谨慎行事——特别是如果您打算将 Gemini 用于商业用途。
Gemini 应用程序和 Gemini 模型有何区别?
Gemini 与网络版和移动版 Gemini 应用程序(以前称为 Bard)是分开的。
Gemini 应用程序是连接到各种 Gemini 模型并在其上分层类似聊天机器人的界面的客户端。可以将它们视为 Google 生成式 AI 的前端,类似于 ChatGPT 和 Anthropic 的 Claude 系列应用程序。
网络上的 Gemini 就 在这里。在 Android 上, Gemini 应用 取代了现有的 Google Assistant 应用。而在 iOS 上, Google 和 Google Search 应用 充当该平台的 Gemini 客户端。
在 Android 上,最近还可以在任何应用程序顶部调出 Gemini 覆盖层,以询问有关屏幕上的内容(例如 YouTube 视频)的问题。只需按住支持的智能手机的电源按钮或说“Hey Google”;您就会看到覆盖层弹出。
Gemini 应用可以接受图像、语音命令和文本(包括 PDF 等文件以及即将推出的视频,无论是上传还是从 Google Drive 导入)并生成图像。如您所料,如果您在两个地方都登录了同一个 Google 帐户,则与移动设备上的 Gemini 应用进行的对话会延续到网络上的 Gemini,反之亦然。
双子座高级版
Gemini 应用程序并不是招募 Gemini 模型协助完成任务的唯一方式。Gemini 功能正在缓慢但稳步地 融入 Google 的主要应用程序和服务中,例如 Gmail 和 Google Docs。
要充分利用其中的大部分功能,您需要 Google One AI Premium 计划。从技术上讲 ,AI Premium 计划是Google One的一部分,费用为 20 美元,可在 Google Workspace 应用(如 Docs、Slides、Sheets 和 Meet)中访问 Gemini。它还启用了 Google 所谓的 Gemini Advanced,将公司更复杂的 Gemini 模型引入 Gemini 应用。
Gemini Advanced 用户还可以获得额外功能,例如优先使用新功能、直接在 Gemini 中运行和编辑 Python 代码的能力以及更大的“上下文窗口”。Gemini Advanced 可以记住对话中大约 750,000 个单词(或 1,500 页文档)的内容和推理。相比之下,普通 Gemini 应用程序只能处理 24,000 个单词(或 48 页)。
Gemini Advanced 的另一项独家功能是 Google 搜索中的旅行规划,它可以根据提示创建自定义旅行行程。Gemini 会考虑航班时间(来自用户 Gmail 收件箱中的电子邮件)、用餐偏好、当地景点信息(来自 Google 搜索和地图数据)以及这些景点之间的距离等因素,生成行程并自动更新以反映任何变化。
谷歌服务中的 Gemini 也通过两个计划向企业客户提供,即 Gemini Business(Google Workspace 的附加组件)和 Gemini Enterprise。Gemini Business 每位用户每月费用低至 20 美元,而 Gemini Enterprise(增加了会议笔记和翻译字幕以及文档分类和标签)每位用户每月费用为 30 美元及以上。(这两个计划都需要每年承诺。)
Gmail、Docs、Chrome、开发工具等中的 Gemini
在 Gmail 中,Gemini 位于侧面板中,可用于撰写电子邮件和汇总消息线索。在 Docs 中,您也会找到相同的面板,它可帮助您撰写和完善内容并集思广益。Slides 中的 Gemini 可生成幻灯片和自定义图像。Google Sheets 中的 Gemini 可跟踪和组织数据,创建表格和公式。
Gemini 的功能还扩展到了 Drive,它可以汇总文件并快速介绍项目情况。同时,在 Meet 中,Gemini 可以将字幕翻译成其他语言。
Gemini 最近以 AI 写作工具的形式出现在谷歌的 Chrome 浏览器中 。你可以用它写一些全新的内容或重写现有的文本;谷歌表示,它会考虑你正在浏览的网页并提出建议。
除此之外,你还会在 Google 的 数据库产品、 云安全工具和应用开发平台 (包括 Firebase 和 Project IDX)以及 Google Photos (Gemini 处理自然语言搜索查询)、YouTube(帮助集思广益产生视频创意)和 NotebookLM 笔记助手等应用中找到 Gemini 的踪迹。
Code Assist (原名为 Duet AI for Developers)是 Google 的一套人工智能辅助工具,用于代码补全和生成,它正在将繁重的计算工作转移给 Gemini。Google 的 安全产品也以 Gemini 为基础,例如威胁情报中的 Gemini,它可以分析大量潜在的恶意代码,并让用户通过自然语言搜索来查找持续的威胁或入侵指标。
双子座扩展和宝石
Gemini Advanced在 2024 年 Google I/O 大会上发布, 用户可以创建 Gems,即由 Gemini 模型驱动的自定义聊天机器人。Gem 可以通过自然语言描述生成,例如“你是我的跑步教练。给我一个每日跑步计划”并与他人共享或保密。
Gems 可在 150 个国家/地区的桌面和移动设备上使用,支持大多数语言。最终,他们将能够利用与 Google 服务的更多集成,包括 Google 日历、Tasks、Keep 和 YouTube Music,来完成自定义任务。
说到集成,网页和移动端的 Gemini 应用可以通过谷歌所谓的“Gemini 扩展”接入谷歌服务。Gemini 目前已与 Google Drive、Gmail 和 YouTube 集成,以响应诸如“您能总结一下我最近的三封电子邮件吗?”之类的查询。今年晚些时候,Gemini 将能够使用谷歌日历、Keep、Tasks、YouTube 音乐和实用程序等 Android 独有的应用采取更多行动,这些应用可控制设备上的功能,如计时器和闹钟、媒体控制、手电筒、音量、Wi-Fi、蓝牙等。
Gemini Live 深度语音聊天
一项 名为 Gemini Live 的新体验专为 Gemini Advanced 用户提供,让用户可以与 Gemini 进行“深入”的语音聊天。该功能可在移动设备上的 Gemini 应用程序和Pixel Buds Pro 2中使用,即使手机已锁定也可以访问。
启用 Gemini Live 后,您可以在聊天机器人说话时打断它(使用几种新声音之一)并提出澄清问题,它会实时适应您的说话方式。今年晚些时候,Gemini 将能够通过智能手机摄像头拍摄的照片或视频查看并响应您的周围环境。
Live 还可以充当某种虚拟教练,帮助你排练活动、集思广益等等。例如,Live 可以建议你在即将到来的工作或实习面试中突出哪些技能,还可以提供公开演讲建议。
您可以在此处阅读我们对 Gemini Live 的评论。剧透警告:我们认为该功能还有很长的路要走才能变得非常有用——但不可否认,现在还为时过早。
通过 Imagen 3 生成图像
Gemini 用户可以使用 Google 内置的Imagen 3模型生成艺术品和图像。
谷歌表示,与前代Imagen 2相比,Imagen 3 能够更准确地理解其转换成图像的文本提示 ,并且在其各代中更具“创意和细节”。此外,该模型产生的伪影和视觉错误更少(至少谷歌是这样认为的),是迄今为止渲染文本的最佳 Imagen 模型。
今年 2 月,谷歌被迫暂停了 Gemini 生成人物图像的功能,原因是用户抱怨 历史不准确。但在 8 月,该公司重新为某些用户引入了人物生成功能,特别是作为试点计划的一部分,注册了谷歌付费 Gemini 计划之一(例如Gemini Advanced)的英语用户。
青少年双子座
今年 6 月,谷歌推出了以青少年为中心的Gemini 体验,允许学生通过他们的 Google Workspace for Education 学校帐户进行注册。
专注于青少年的 Gemini 拥有“额外的政策和保障措施”,包括量身定制的入职流程和“人工智能素养指南”,以(用谷歌的话来说)“帮助青少年负责任地使用人工智能”。除此之外,它与标准的 Gemini 体验几乎完全相同,甚至包括“双重检查”功能,该功能会在整个网络上查看 Gemini 的回答是否准确。
智能家居设备中的双子座
越来越多的谷歌设备利用 Gemini 来增强功能,从Google TV Streamer到Pixel 9 和 9 Pro,再到最新的 Nest Learning Thermostat。
在 Google TV Streamer 上,Gemini 会根据您的偏好在您的订阅中策划内容建议,并总结评论甚至整季电视剧。
在最新的 Nest 恒温器(以及 Nest 扬声器、摄像头和智能显示器)上,Gemini 将很快增强 Google Assistant 的对话和分析功能。
今年晚些时候,订阅 Google Nest Aware计划的用户将可以预览 Gemini 带来的全新体验,例如 Nest 摄像头镜头的 AI 描述、自然语言视频搜索和推荐自动化。Nest 摄像头将了解实时视频源中发生的事情(例如,当狗在花园里挖洞时),而配套的 Google Home 应用将根据描述显示视频并创建设备自动化(例如,“孩子们是否把自行车放在车道上?”,“让我的 Nest 恒温器在我每周二下班回家时打开暖气”)。
此外,今年晚些时候,Google Assistant 将在 Nest 品牌和其他智能家居设备上进行一些升级,让对话更加自然。语音改进即将推出,此外还能提出后续问题并“轻松来回切换”。
Gemini 模型可以做什么?
由于 Gemini 模型是多模态的,因此它们可以执行一系列多模态任务,从实时转录语音到为图像和视频添加字幕。其中许多功能已进入产品阶段(如上一节所述),Google 承诺在不久的将来会推出更多功能。
当然,要相信谷歌的说法有点困难。谷歌 最初推出 Bard 时表现严重欠佳。最近,谷歌发布了 一段视频,旨在展示 Gemini 的功能, 但视频或多或少只是一种愿景,而非现场直播,这引起了 轩然大波。
此外,谷歌并未解决 当今生成式人工智能技术的 一些潜在问题,比如其编码偏见和虚构事物的倾向(即 产生幻觉)。它的竞争对手也没有,但在考虑使用或购买 Gemini 时,这一点需要牢记。
就本文而言,我们假设 Google 最近的声明属实,以下是 Gemini 不同层级现在可以做的事情,以及它们在充分发挥潜力后可以做的事情:
Gemini Ultra 可做什么
谷歌表示, Gemini Ultra 由于其多模式性,可以用来帮助完成物理作业、在工作表上逐步解决问题以及指出已填写答案中可能存在的错误。
谷歌表示,Ultra 还可以用于识别与问题相关的科学论文等任务。例如,该模型可以从多篇论文中提取信息,并通过生成必要的公式来更新其中的图表,从而使用更及时的数据重新创建图表。
Gemini Ultra 在技术上支持图像生成。但该功能尚未进入模型的产品化版本——可能是因为该机制比 ChatGPT 等应用程序生成图像的方式更复杂。Gemini 不会将提示输入到图像生成器(如 ChatGPT 中的 DALL-E 3),而是“原生”输出图像,无需中间步骤。
Ultra 可通过 Vertex AI(Google 完全托管的 AI 开发平台)和 AI Studio(Google 为应用程序和平台开发人员提供的基于网络的工具)作为 API 提供。
Gemini Pro 的功能
谷歌表示,Gemini Pro 在推理、规划和理解能力方面比 LaMDA 有所改进。最新版本 Gemini 1.5 Pro(为 Gemini Advanced 用户提供 Gemini 应用)在某些领域的性能甚至超过了 Ultra。
与前代产品 Gemini 1.0 Pro 相比, Gemini 1.5 Pro 在多个方面都有所改进 ,其中最明显的改进可能就是其处理的数据量。Gemini 1.5 Pro 最多可以存储 140 万个单词、两小时的视频或 22 小时的音频,并且可以对这些数据进行推理或回答相关问题(或多或少)。
Gemini 1.5 Pro 于 6 月在Vertex AI和 AI Studio上正式发布,同时还推出了一项名为“代码执行”的功能,该功能旨在通过分多个步骤迭代优化代码来减少模型生成的代码中的错误。(代码执行还支持 Gemini Flash。)
在 Vertex AI 中,开发人员可以通过微调或“基础”过程针对特定环境和用例定制 Gemini Pro。例如,可以指示 Pro(以及其他 Gemini 模型)使用来自第三方提供商(如 Moody’s、Thomson Reuters、ZoomInfo 和 MSCI)的数据,或从公司数据集或 Google 搜索(而不是其更广泛的知识库)获取信息。Gemini Pro 还可以连接到外部第三方 API 来执行特定操作,例如自动化后台工作流程。
AI Studio 提供使用 Pro 创建结构化聊天提示的模板。开发人员可以控制模型的创作范围,并提供示例来提供语气和风格指导,还可以调整 Pro 的安全设置。
Vertex AI Agent Builder 可让人们在 Vertex AI 中构建由 Gemini 驱动的“代理”。例如,一家公司可以创建一个代理,该代理会分析以前的营销活动以了解品牌风格,然后应用这些知识来帮助产生与该风格一致的新想法。
Gemini Flash 适用于要求不高的工作
对于要求不高的应用程序,可以使用 Gemini Flash。最新版本是 1.5 Flash;未订阅 Gemini Advanced 的 Gemini 应用程序用户可以访问此版本。
Flash 是 Gemini Pro 的一个分支,体积小巧、效率高,专为窄带、高频率的生成式 AI 工作负载而构建,与 Gemini Pro 一样,它也是多模式的,这意味着它可以分析音频、视频、图像和文本(但只能生成文本)。谷歌表示,Flash 特别适合摘要和聊天应用等任务,以及图像和视频字幕以及从长文档和表格中提取数据。
使用 Flash 和 Pro 的开发人员可以选择性地利用上下文缓存,这使他们可以将大量信息(例如知识库或研究论文数据库)存储在 Gemini 模型可以快速且相对便宜地访问的缓存中。不过,上下文缓存是在其他 Gemini 模型使用费之外的额外费用。
Gemini Nano 可以在你的手机上运行
Gemini Nano 是 Gemini Pro 和 Ultra 型号的小型版本,效率足够高,可以直接在(某些)设备上运行,而不必将任务发送到某个服务器。到目前为止,Nano 为 Pixel 8 Pro、Pixel 8、Pixel 9 Pro、Pixel 9 和 三星 Galaxy S24提供了一些功能,包括录音机中的摘要和 Gboard 中的智能回复。
录音机应用允许用户按下按钮来录制和转录音频,其中包括 Gemini 支持的录音对话、采访、演示和其他音频片段摘要。即使没有信号或 Wi-Fi 连接,用户也可以获得摘要 — 并且为了保护隐私,任何数据在处理过程中都不会离开手机。
Nano 还用于 Google 的键盘替代品 Gboard。它支持一项名为“智能回复”的功能,该功能有助于在 WhatsApp 等消息应用中进行对话时建议你接下来要说的话。
在支持设备上的 Google Messages 应用中,Nano 可驱动 Magic Compose,它可以编写“激动”、“正式”和“抒情”等风格的消息。
谷歌表示,未来版本的 Android 将利用 Nano 提醒 用户通话过程中可能出现的诈骗。Pixel手机上的 新天气应用 使用Gemini Nano 生成定制的天气报告。谷歌的无障碍服务 TalkBack 使用 Nano 为视力不佳和盲人用户创建物体的听觉描述。
双子座 (Gemini) 型号售价是多少?
Gemini 1.0 Pro(Gemini Pro 的第一个版本)、1.5 Pro 和 Flash 可通过 Google 的 Gemini API 构建应用和服务 – 全部提供免费选项。但免费选项施加了使用限制,并且忽略了某些功能,例如上下文缓存和批处理。
除此之外,Gemini 型号均采用即用即付的方式。以下是截至 2024 年 9 月的基本定价(不包括上下文缓存等附加组件):
- Gemini 1.0 Pro: 每 100 万个输入代币收费 50 美分,每 100 万个输出代币收费 1.50 美元
- Gemini 1.5 Pro: 每 100 万个输入令牌 3.50 美元(对于长度不超过 128K 个令牌的提示)或每 100 万个输入令牌 7 美元(对于长度超过 128K 个令牌的提示);每 100 万个输出令牌 10.50 美元(对于长度不超过 128K 个令牌的提示)或每 100 万个输出令牌 21.00 美元(对于长度超过 128K 个令牌的提示)
- Gemini 1.5 Flash: 每 100 万个输入令牌 7.5 美分(对于长度不超过 128K 个令牌的提示),每 100 万个输入令牌 15 美分(对于长度超过 128K 个令牌的提示),每 100 万个输出令牌 30 美分(对于长度不超过 128K 个令牌的提示),每 100 万个输出令牌 60 美分(对于长度超过 128K 个令牌的提示)
标记是原始数据的细分部分,例如单词“fantastic”中的音节“fan”、“tas”和“tic”;100 万个标记相当于约 70 万个单词。输入是指输入到模型中的标记,而输出是指模型生成的标记。
Ultra 的定价尚未公布,而 Nano 仍处于 早期试用阶段。
Gemini 会登陆 iPhone 吗?
有可能。
苹果表示,正在商谈将 Gemini 和其他第三方模型用于其Apple Intelligence套件 的多项功能。在 WWDC 2024 的主题演讲之后,苹果高级副总裁 Craig Federighi 确认了使用包括 Gemini 在内的模型的计划,但他没有透露任何其他细节。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/google-gemini-ni-xu-yao-liao-jie-de-you-guan-sheng-cheng