DeepMind 的 Genie 2 可以生成类似视频游戏的交互式世界

王浩然 • 2024年12月5日下午10:00 • AI前沿 • 81 views

谷歌的人工智能研究机构 DeepMind 推出了一个可以生成“无限”可玩 3D 世界的模型。

该模型名为 Genie 2，是今年早些时候发布的 DeepMind Genie 的继任者，它可以根据单个图像和文本描述（例如“树林里可爱的人形机器人”）生成交互式实时场景。从这一点来看，它类似于李飞飞的公司World Labs和以色列初创公司Decart正在开发的模型。

DeepMind 声称 Genie 2 可以生成“丰富多样的 3D 世界”，其中包括用户可以使用鼠标或键盘进行跳跃和游泳等动作的世界。经过视频训练，该模型能够模拟物体交互、动画、灯光、物理、反射和“NPC”的行为。

Genie 2 的许多模拟看起来都像AAA视频游戏——原因很可能是该模型的训练数据包含热门游戏的通关情况。但 DeepMind 与许多 AI 实验室一样，出于竞争或其他原因，不会透露有关其数据采购方法的太多细节。

有人想知道知识产权方面的影响。DeepMind——作为谷歌的子公司——可以不受限制地访问 YouTube，谷歌此前曾暗示其服务条款允许其使用 YouTube 视频进行模型训练。但 Genie 2 是否基本上在未经授权复制它“观看”的视频游戏？这有待法院决定。

DeepMind 表示，Genie 2 可以生成具有不同视角的一致世界，例如第一人称视图和等距视图，持续时间最长为一分钟，大多数持续时间为 10 到 20 秒。

DeepMind 在一篇博文中写道：“Genie 2 可以智能地响应键盘上的按键操作，识别角色并正确移动。例如，我们的模型 [可以] 确定箭头键应该移动机器人，而不是树木或云。”

大多数模型（如 Genie 2）——如果你愿意的话，可以称为世界模型——可以模拟游戏和 3D 环境，但存在伪影、一致性和幻觉相关问题。例如，Decart 的 Minecraft 模拟器 Oasis分辨率较低，并且很快就会“忘记”关卡布局。

然而，Genie 2 可以记住模拟场景中不在视野范围内的部分，并在它们再次出现时准确地呈现它们。（World Labs 的模型也可以做到这一点。）

现在，使用 Genie 2 创建的游戏实际上并不那么有趣，因为它们每隔一分钟就会抹去你的进度。这就是为什么 DeepMind 将该模型定位为一种研究和创意工具——一种用于原型化“交互式体验”和评估 AI代理的工具。

DeepMind 写道：“得益于 Genie 2 的分布式泛化能力，概念艺术和绘画可以变成完全交互式的环境。通过使用 Genie 2 为 AI 代理快速创建丰富多样的环境，我们的研究人员可以生成代理在训练期间未见过的评估任务。”

创意人员可能会有复杂的感受——尤其是视频游戏行业的创意人员。《连线》杂志最近的一项调查发现，动视暴雪等主要公司已经裁掉了数十名员工，但他们正在使用人工智能来偷工减料、提高生产力并弥补人员流失。

尽管如此，谷歌还是将越来越多的资源投入到世界模型研究中，这有望成为人工智能领域的下一个重大事件。10 月，DeepMind聘请了Tim Brooks（他当时负责 OpenAI 的Sora视频生成器的开发工作）来研究视频生成技术和世界模拟器。两年前，该实验室从 Meta 挖来了 Tim Rocktäschel，他以在 NetHack 等视频游戏中进行“开放性”实验而闻名。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/deepmind-de-genie-2-ke-yi-sheng-cheng-lei-si-shi-pin-you-xi

DeepMind Genie 2

Like (0)

王浩然作者

0 0

Meta 加入核能数据中心潮流

Previous 2024年12月5日

AWS 将数据库价格降低近 50%，并增加了分布式扩展功能

Next 2024年12月6日

AI前沿

Pika 1.5 再次更新，新增更多 AI 视频效果：碎裂、溶解、缩小、吃惊

Pika又名 Pika Labs 或 Pika AI，是一家总部位于加利福尼亚州帕洛阿尔托的初创公司，已筹集 5500 万美元，利用同名的视频 AI 模型颠覆视频制作领域，目前，该…

王浩然
2024年10月19日
000
AI前沿

先进的基础模型将如何扩展人工智能的功能

为什么要阅读非 Sam-Altman 和非 AI 博士对AI 的预测？因为早期风险投资家每天都在与比我们聪明得多的人一起工作，这些人将 AI 运用到最前沿。这让我们看到了未来可能发…

王浩然
2024年12月29日
000
AI前沿

人工智能阅读教练初创公司 Ello 现在让孩子们创作自己的故事

Ello是一款旨在帮助阅读困难儿童的人工智能阅读伴侣，它于周一推出了一款新产品，让孩子们可以参与故事创作过程。这项名为“Storytime”的人工智能新功能可以帮助孩子们从一系…

王浩然
2024年10月1日
000
AI前沿

Riffusion 的免费 AI 音乐平台可能成为未来的 Spotify

总部位于旧金山的人工智能初创公司Riffusion今天推出了一个免费的网络平台，任何人都可以使用人工智能创作原创音乐，这标志着生成人工智能在传统上由人类艺术家主导的创意领域的扩展取…

王浩然
2025年1月31日
000
AI前沿

Google 的 Gemini API 和 AI Studio 助力 Google 搜索

从今天开始，使用 Google Gemini API 及其Google AI Studio构建基于 AI 的服务和机器人的开发人员将能够利用 Google 搜索的数据来支持其提示结…

王浩然
2024年11月2日
000
AI前沿

Emily Popson，CallRail 增长营销副总裁 – 访谈系列

Emily Popson 是CallRail的增长营销副总裁，负责领导需求生成、网站优化、客户营销和内容营销团队。Popson 自己之前也是一家小企业主，她热衷于让即使是最小的团…

点点
2024年10月17日
000
AI前沿

谷歌开始在乌拉圭建设价值 8.5 亿美元的数据中心

新设施旨在提高人工智能能力、支持经济增长和实现可持续发展

点点
2024年9月5日
000
AI前沿

实时数据、区块链和人工智能：智能应用的游戏规则改变者

当我们谈论实时数据时，我们指的是那些在创建和获取后即可使用的信息。数据不是被存储，而是在收集后立即直接转发到应用程序，并立即可用（没有任何延迟），以支持实时、即时的决策。实时数据…

点点
2024年10月15日
000
AI前沿

为医生配备人工智能副驾驶

大多数医生从医是因为他们想帮助患者。但当今的医疗保健系统要求医生每天花费数小时处理其他工作——搜索电子健康记录 (EHR)、编写文档、编码和计费、事先授权和使用管理——通常超过他们…

王浩然
2024年10月20日
000
AI前沿

ServiceNow斥资28.5亿美元收购Moveworks，拓展AI版图‌

近日，ServiceNow宣布了一项重大收购计划，以28.5亿美元的价格将人工智能解决方案提供商Moveworks纳入麾下。此举标志着ServiceNow在人工智能领域的又一重大布…

王浩然
2025年3月11日
000
AI前沿

AI谎言探测器：HallOumi的开源幻觉检测方法如何解锁企业AI应用

在推动企业AI部署的竞赛中，一个长期存在的障碍始终阻碍着前进的步伐：幻觉。这些由AI系统产生的虚假响应，已经导致了一系列问题，从律师面临的法律制裁到公司被迫遵守虚构的政策。为了解决…

王浩然
3天前
000
AI前沿

为什么人工智能开发人员对 Claude 3.5 的计算机使用功能赞不绝口

Anthropic 刚刚发布了 Claude 3.5，这是其 LLM 系列的一个功能强大的新版本。虽然这个模型带来了改进的推理和编码技能，但真正令人兴奋的是围绕一项名为“计算机使用…

点点
2024年11月5日
000
AI前沿

代理型AI如何塑造软件交付的未来

一、引言随着技术的不断进步，软件交付领域正经历着前所未有的变革。其中，代理型AI（Agentic AI）作为新兴技术，正逐步成为推动这一变革的关键力量。本文将深入探讨代理型AI如…

王浩然
2025年3月15日
000
AI前沿

AI 超大规模提供商 Nscale 获得 1.55 亿美元 A 轮融资，助力扩张并满足 AI 计算需求

Nscale是 AI 超大规模基础设施领域的领先创新者，该公司宣布完成1.55 亿美元的 A 轮融资。此轮融资由Sandton Capital Partners领投，Kestrel…

王浩然
2024年12月9日
000
AI前沿

Napkin AI 的人工智能代理“设计机构”正在改变专业人士创作图形的方式

平面设计公司Napkin AI正在垂直 AI 代理应用这一令人兴奋的前沿领域开辟一条独特的道路。用户可以在 Napkin AI 的网站上输入文本，其模型会在五秒内生成代表文本的图…

王浩然
2025年2月12日
000
AI前沿

前Palantir 首席信息安全官 Dane Stuckey 加入 OpenAI 领导安全事务

分析公司 Palantir 的前 CISO Dane Stuckey 已加入 OpenAI 担任其最新 CISO，与 OpenAI 安全主管 Matt Knight 一起共事。斯…

王浩然
2024年10月18日
000
AI前沿

ChatGPT 和。Sora 本月第二次宕机

ChatGPT、Sora 和 OpenAI 面向开发人员的 API 于周四瘫痪了四个多小时。OpenAI 表示，它从太平洋时间上午 11 点开始出现严重中断，但现在表示其服务已于太…

王浩然
2024年12月28日
000
AI前沿

Genies发布用户生成内容工具，让任何人都能创建自定义AI头像

Genies，这家专注于文化元素的头像技术公司，最近揭示了其用户生成内容（UGC）工具，该工具允许任何人创建自定义的AI头像。这一举措标志着Genies在构建其所谓的“Partie…

王浩然
3天前
000
AI前沿

NVIDIA推出Llama Nemotron开放推理模型，加速自主AI发展

在人工智能（AI）领域，NVIDIA始终走在创新的前沿。近日，在NVIDIA GTC大会上，这家AI巨头宣布了一系列硬件和软件更新，其中最为引人注目的莫过于其全新推出的Llama …

王浩然
2025年3月22日
000
AI前沿

前谷歌CEO泄露AI高级机密，英伟达将引爆“抢购潮”

上个周末，前谷歌CEO 埃里克·施密特在斯坦福大学进行了一场关于如果更智能的重要讲座，在不知道全程直播的情况下泄露了“AI行业的高级机密”，其中就包括了英伟达接下来的重磅利好消息。…

点点
2024年8月21日
000

发表回复

Please Login to Comment

DeepMind 的 Genie 2 可以生成类似视频游戏的交互式世界

相关推荐

发表回复

Share To :