谷歌的人工智能研究机构 DeepMind 推出了一个可以生成“无限”可玩 3D 世界的模型。
该模型名为 Genie 2,是今年早些时候发布的 DeepMind Genie 的继任者,它可以根据单个图像和文本描述(例如“树林里可爱的人形机器人”)生成交互式实时场景。从这一点来看,它类似于李飞飞的公司World Labs和以色列初创公司Decart正在开发的模型。
DeepMind 声称 Genie 2 可以生成“丰富多样的 3D 世界”,其中包括用户可以使用鼠标或键盘进行跳跃和游泳等动作的世界。经过视频训练,该模型能够模拟物体交互、动画、灯光、物理、反射和“NPC”的行为。
Genie 2 的许多模拟看起来都像AAA视频游戏——原因很可能是该模型的训练数据包含热门游戏的通关情况。但 DeepMind 与许多 AI 实验室一样,出于竞争或其他原因,不会透露有关其数据采购方法的太多细节。
有人想知道知识产权方面的影响。DeepMind——作为谷歌的子公司——可以不受限制地访问 YouTube,谷歌此前曾暗示其服务条款允许其使用 YouTube 视频进行模型训练。但 Genie 2 是否基本上在未经授权复制它“观看”的视频游戏?这 有待法院决定。
DeepMind 表示,Genie 2 可以生成具有不同视角的一致世界,例如第一人称视图和等距视图,持续时间最长为一分钟,大多数持续时间为 10 到 20 秒。
DeepMind 在一篇博文中写道:“Genie 2 可以智能地响应键盘上的按键操作,识别角色并正确移动。例如,我们的模型 [可以] 确定箭头键应该移动机器人,而不是树木或云。”
大多数模型(如 Genie 2)——如果你愿意的话,可以称为世界模型——可以模拟游戏和 3D 环境,但存在伪影、一致性和幻觉相关问题。例如,Decart 的 Minecraft 模拟器 Oasis分辨率较低,并且很快就会“忘记”关卡布局。
然而,Genie 2 可以记住模拟场景中不在视野范围内的部分,并在它们再次出现时准确地呈现它们。(World Labs 的模型也可以做到这一点。)
现在,使用 Genie 2 创建的游戏实际上并不那么有趣,因为它们每隔一分钟就会抹去你的进度。这就是为什么 DeepMind 将该模型定位为一种研究和创意工具——一种用于原型化“交互式体验”和评估 AI代理的工具。
DeepMind 写道:“得益于 Genie 2 的分布式泛化能力,概念艺术和绘画可以变成完全交互式的环境。通过使用 Genie 2 为 AI 代理快速创建丰富多样的环境,我们的研究人员可以生成代理在训练期间未见过的评估任务。”
创意人员可能会有复杂的感受——尤其是视频游戏行业的创意人员。 《连线》杂志最近的一项调查发现,动视暴雪等主要公司已经裁掉了数十名员工,但他们正在使用人工智能来偷工减料、提高生产力并弥补人员流失。
尽管如此,谷歌还是将越来越多的资源投入到世界模型研究中,这有望成为人工智能领域的下一个重大事件。10 月,DeepMind聘请了Tim Brooks(他当时负责 OpenAI 的Sora视频生成器的开发工作)来研究视频生成技术和世界模拟器。两年前,该实验室从 Meta 挖来了 Tim Rocktäschel,他以在 NetHack 等视频游戏中进行“开放性”实验而闻名。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/deepmind-de-genie-2-ke-yi-sheng-cheng-lei-si-shi-pin-you-xi