随着亚马逊凭借其新的 Nova 系列基础模型向人工智能领域迈出重要一步,谷歌也在加倍加强其自身的多模态人工智能能力。这家科技巨头的云部门宣布,其最新的视频和图像生成模型Veo和Imagen 3现已在Vertex AI上可用。
此举使团队能够将尖端的视频和图像生成功能集成到他们的 AI 工作流程中,从而解锁各种用例——尤其是在营销和广告领域。这也使 Google Cloud 成为第一家向客户提供视频模型的超大规模提供商。
虽然 Veo 模型目前处于私人预览阶段,但 Imagen 3 将从下周开始向所有 Vertex AI 用户全面开放。值得注意的是,Imagen 3 还包含编辑功能,使用户能够优化生成的图像以满足特定的创意需求。
Veo 和 Imagen 3 提供什么?
Veo首次亮相于Google I/O 开发者大会,是 Google DeepMind 对 Runway 的 Gen-3 和 OpenAI 的 Sora 等竞争对手的回应,可提供复杂的视频生成体验。该模型将文本或图像提示转换为具有各种视觉风格的电影高清视频,生成超过 60 秒的剪辑。它与众不同之处在于帧级一致性,确保主体在镜头内无缝移动。
Imagen 3 也来自 DeepMind,它负责将文本生成为图像,能够生成各种风格的照片级逼真的视觉效果。谷歌声称它在细节、照明精度和伪影减少方面都超越了前代产品。
除了生成功能外,Google 许可名单上的用户还可以使用 Imagen 3 的高级自定义选项。这些选项包括图像升级、修复、外绘和背景替换 – 所有这些都由文本提示引导。此外,用户可以提供参考图像,使 Imagen 3 能够创建符合特定品牌美学、徽标或产品功能的内容。
对行业的广泛影响
Vertex AI 长期以来一直是 Google Cloud 简化 AI 应用程序开发和部署的旗舰平台。通过集成 Veo 和 Imagen 3,该平台为组织提供了一套更全面的工具,以在营销、销售和其他领域进行创新。
例如,Imagen 3 简化了产品图片和社交媒体内容等高质量资产的创建,而 Veo 则通过为团队提供将这些视觉效果转换为精美视频的选项来扩展此功能。这加快了生产速度、降低了成本并加速了原型制作,使团队能够快速迭代其创意策略。
谷歌产品管理高级总监 Warren Barkley 在一篇博文中表示:“Agoda 等客户正在利用 Veo、Gemini 和 Imagen 等人工智能模型的强大功能来简化其视频广告制作,从而大幅缩短制作时间。”他还强调,这两种模型都包含数字水印和内容审核护栏等安全功能,以减轻与生成式人工智能相关的风险。
其他早期采用者包括亿滋国际(拥有奥利奥、吉百利和妙卡等品牌)和全球营销与传播服务公司 WPP。随着 Google 基础模型的覆盖范围不断扩大,各行各业的企业都有了重新构想视觉内容创作和交付方式的绝佳机会。
竞争持续升温
尽管包括 Google Cloud、Amazon Web Services 和 Microsoft Azure 在内的所有主要云提供商都在各自的 AI 编排平台上提供图像生成模型,但到目前为止,视频生成仍然相当罕见。谷歌今天推出 Veo 私人预览版的举动改变了这一现状。
有趣的是,在 Veo 发布后不久,AWS 在 re:Invent 大会上引起轰动,发布了Nova Reel,这是一个基础模型,可以根据文本和图像提示生成六秒长的工作室质量的视频。
该模型以及 Nova 家族的其他模型将通过Amazon Bedrock推出,Amazon Bedrock 是该公司的完全托管服务,旨在简化生成式 AI 应用程序的创建和部署。
微软目前似乎在这一领域落后了。其AI Foundry不包括视频生成模型。不过,我们预计,一旦 OpenAI 的 Sora 上市,这种情况就会改变。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/google-cloud-zai-vertex-shang-tui-chu-veo-ai-shi-pin-sheng