1X 发布生成世界模型来训练机器人

王浩然 • 2024年9月20日上午11:00 • AI前沿 • 128 views

机器人初创公司1X Technologies开发了一种新的生成模型，可以大大提高在模拟中训练机器人系统的效率。该公司在一篇新博客文章中宣布了这一模型，它解决了机器人技术的一个重要挑战，即学习“世界模型”，这种模型可以预测世界如何响应机器人的动作而发生变化。

考虑到在物理环境中直接训练机器人的成本和风险，机器人专家通常使用模拟环境来训练其控制模型，然后再将其部署到现实世界中。然而，模拟和物理环境之间的差异带来了挑战。

地理位置智能对营销人员的强大作用

1X Technologies 人工智能副总裁 Eric Jang 告诉 VentureBeat：“机器人专家通常手工编写场景，这些场景是现实世界的‘数字孪生’，并使用 Mujoco、Bullet、Isaac 等刚体模拟器来模拟其动态。”“然而，数字孪生可能存在物理和几何不准确性，导致在一个环境中进行训练，在另一个环境中部署，从而造成‘模拟到现实的差距’。例如，您从互联网上下载的门模型的把手弹簧刚度不太可能与您测试机器人的实际门相同。”

生成世界模型

为了弥补这一差距，1X 的新模型通过对直接从机器人收集的原始传感器数据进行训练来学习模拟现实世界。通过查看从公司自己的机器人收集的数千小时的视频和执行器数据，该模型可以查看当前对世界的观察并预测如果机器人采取某些行动会发生什么。

这些数据是从EVE 人形机器人收集的，它们在家里和办公室里执行各种移动操作任务并与人互动。

“我们在各个 1X 办公室收集了所有数据，并组建了一支 Android 操作员团队，帮助注释和过滤数据，”Jang 说道。“通过直接从真实数据中学习模拟器，随着交互数据量的增加，动态应该会更接近现实世界。”

学习世界模型对于模拟物体交互特别有用。该公司分享的视频显示，该模型成功预测了机器人抓取盒子的视频序列。据 1X 称，该模型还可以预测“非平凡的物体交互，如刚体、掉落物体的影响、部分可观察性、可变形物体（窗帘、衣物）和铰接物体（门、抽屉、窗帘、椅子）”。

一些视频展示了该模型如何模拟复杂的长视界任务，例如折叠衬衫等可变形物体。该模型还模拟了环境的动态，例如如何避开障碍物并与人保持安全距离。

生成模型的挑战

环境变化仍将是一个挑战。与所有模拟器一样，生成模型需要随着机器人运行环境的变化而更新。研究人员认为，模型学习模拟世界的方式将使更新变得更加容易。

“如果训练数据过时，生成模型本身可能存在模拟到真实之间的差距，”Jang 说道。“但这个想法是，因为它是一个完全学习的模拟器，所以从现实世界输入新数据将修复模型，而无需手动调整物理模拟器。”

1X 的新系统受到OpenAI Sora和Runway等创新的启发，这些创新表明，借助正确的训练数据和技术，生成模型可以学习某种世界模型并保持一致性。

然而，虽然这些模型旨在从文本生成视频，但 1X 的新模型属于生成系统趋势的一部分，这些系统可以在生成阶段对动作做出反应。例如，谷歌的研究人员最近使用类似的技术来训练可以模拟游戏 DOOM 的生成模型。交互式生成模型可以为训练机器人控制模型和强化学习系统开辟无数可能性。

然而，生成模型固有的一些挑战在 1X 提出的系统中仍然存在。由于该模型不是由明确定义的世界模拟器驱动的，因此有时会产生不切实际的情况。在 1X 分享的例子中，该模型有时无法预测物体悬在空中时会掉落。在其他情况下，物体可能会从一帧消失到另一帧。应对这些挑战仍然需要付出大量努力。

一个解决方案是继续收集更多数据并训练更好的模型。“过去几年，我们看到生成视频建模取得了显著进展，OpenAI Sora 等成果表明，扩展数据和计算可以走得很远，”Jang 说道。

与此同时，1X 还通过发布其模型和权重来鼓励社区参与这项工作。该公司还将发起竞赛来改进模型，并为获胜者提供奖金。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/1x-fa-bu-sheng-cheng-shi-jie-mo-xing-lai-xun-lian-ji-qi-ren

1X Android Doom EVE OpenAI 世界模型数字孪生

Like (0)

王浩然作者

0 0

YouTube 将使用人工智能生成创意、标题甚至完整视频

Previous 2024年9月20日上午10:00

Google NotebookLM不断发展：IT 领导者需要了解其企业应用程序

Next 2024年9月20日下午12:00

AI前沿

AWS Bedrock 升级添加模型教学、幻觉检测器

由于企业希望模型具有更高的定制化程度和准确性， AWS宣布了 Bedrock 的更多更新，旨在发现幻觉并更快地构建更小的模型。 AWS 在 re:Invent 2024 期间宣布…

王浩然
2024年12月4日
000
AI前沿

薪资初创公司 Warp 与发表白人至上言论的“关联公司”断绝关系

Warp是纽约的一家年轻的薪资初创公司，由于与该公司关联的一个账户发布了一些有争议的帖子而备受关注。周四，一个名为维托里奥 (Vittorio) 的账户在 X 上发帖称，“我更喜…

点点
2024年9月8日
000
AI前沿

Uber 与 AI 公司联手开发自动驾驶汽车

Uber正在与英国人工智能公司Wayve合作开发自动驾驶汽车。这家叫车公司表示，将与汽车制造商合作，使用这家位于伦敦的初创公司的人工智能解决方案。这将为车辆提供 4 级自动驾驶…

点点
2024年9月5日
000
AI前沿

据报道，DeepSeek 的 R1 比其他 AI 模型更容易被越狱

《华尔街日报》报道称，震惊硅谷和华尔街的中国人工智能公司DeepSeek的最新模型可被操纵来制作有害内容，如生物武器袭击计划和鼓励青少年自残的活动。 Palo Alto Netwo…

王浩然
2025年2月10日
000
AI前沿

超越Transformer：NVIDIA的MambaVision旨在为企业解锁更快、更便宜的计算机视觉

引言‌ 在人工智能（AI）的广阔领域中，计算机视觉一直是推动技术进步和应用创新的关键力量。然而，传统的基于Transformer的计算机视觉模型虽然性能卓越，但计算成本高昂，限制了…

王浩然
2025年3月26日
000
AI前沿

英特尔推出新款 Core Ultra 处理器，AI 应用性能提升 2 至 3 倍

英特尔今天在CES 2025上发布了全新英特尔酷睿超极本 9 处理器，其 AI 应用的边缘性能比之前提升了两到三倍。英特尔酷睿 Ultra 9 和酷睿 i9 系列芯片此前的代号分…

王浩然
2025年1月7日
000
AI前沿

出现了一种神秘的新图像生成模型

一种神秘的新图像生成模型在众包人工智能分析基准上击败了 Midjourney、Black Forest Labs 和 OpenAI 的模型。该模型名为“ red_pa nda…

王浩然
2024年10月29日
000
AI前沿

谷歌 DeepMind 开源 AlphaFold 3，开启药物研发和分子生物学新时代

Google DeepMind意外发布了AlphaFold 3的源代码和模型权重，供学术使用，这标志着一项重大进展，可能加速科学发现和药物开发。就在几周前，该系统的创建者 Demi…

王浩然
2024年11月13日
000
AI前沿

高通希望收购英特尔

周五下午，《华尔街日报》报道称，另一家芯片巨头高通已就收购事宜与英特尔接洽。尽管该报未具名消息人士称，任何交易都“远未确定”，但对于一家曾是全球最有价值的芯片公司而言，这将是一个巨…

王浩然
2024年9月23日
000
AI前沿

Anthropics的Claude代码工具现重大漏洞，致部分系统崩溃‌

近期，人工智能领域知名初创公司Anthropics遭遇了一次技术挑战。其明星产品Claude代码工具被发现存在一个重大漏洞，该漏洞导致部分用户系统出现了严重故障，甚至无法正常使用。…

王浩然
2025年3月9日
000
AI前沿

苹果AI背后的秘密大招，为每个人定制“隐私保安”，《连线》深度拆解苹果私密云计算技术PCC

智东西9月12日消息，本周苹果公司刚刚发布了全新的iPhone 16系列手机新品，并同步推出了最新iOS 18系统，其中的最大亮点就是内置的苹果AI功能（Apple Intelli…

点点
2024年9月13日
000
AI前沿

自调用代码基准可帮助您决定使用哪些 LLM 来完成编程任务

随着大型语言模型 (LLM) 在编码方面的不断改进，用于评估其性能的基准变得越来越不实用。这是因为，尽管许多 LLM 在这些基准上获得了类似的高分，但了解在特定的软件开发项目和企…

王浩然
2025年1月11日
000
AI前沿

微软在 Windows 召回系统重新发布前详细介绍了其安全/隐私方面的改进

微软正在对其备受争议的 Copilot+ Windows PC 的 Recall 功能进行另一次调整，此前该功能的原始版本在夏季安全研究人员和测试人员的严格审查下崩溃并烧毁。Rec…

点点
2024年9月30日
000
AI前沿

以下是增强 AI 性能的 3 个关键 LLM 压缩策略

在当今快节奏的数字环境中，依赖人工智能的企业面临着新的挑战：运行人工智能模型的延迟、内存使用和计算能力成本。随着人工智能的快速发展，支持这些创新的模型变得越来越复杂和资源密集。虽然…

王浩然
2024年11月11日
000
AI前沿

技能组合新高度：威胁情报与逆向工程的完美融合

在网络安全的世界里，威胁情报就像是我们的“眼睛”和“耳朵”。通过收集、分析和共享有关潜在威胁的信息，威胁情报帮助我们提前发现并应对安全风险。

点点
2024年9月7日
000
AI前沿

Runway 的全新 AI 图像生成器 Frames 现已推出，其画面效果非常具有电影感

AI 媒体技术提供商Runway宣布推出其最新的文本转图像生成模型 Frames，该模型因制作出极具电影感的视觉效果而赢得了用户的早期赞誉——鉴于 Runway 主要以 AI 视频…

王浩然
2025年1月18日
000
AI前沿

谷歌依然限制Gemini回答政治问题的范围‌

在信息技术日新月异的今天，搜索引擎作为人们获取信息的重要渠道，其运作方式及内容呈现备受瞩目。近日，据相关报道，谷歌在对待政治问题的搜索回答上，依旧保持着谨慎的态度，对Gemini—…

王浩然
2025年3月5日
000
AI前沿

XAI是否对Grok 3基准测试结果造假？

近日，有关XAI（Explainable AI，可解释人工智能）公司对其最新产品Grok 3的基准测试结果真实性的质疑声四起。据指控，XAI可能夸大了Grok 3在某些关键性能指标…

王浩然
2025年2月26日
000
AI前沿

一种新的代理可靠性方法：AgentSpec强制代理遵循规则

在人工智能领域，随着AI代理（Agent）在企业流程和自动驾驶等应用中的日益普及，其安全性和可靠性问题也日益凸显。AI代理在执行任务时可能会采取意外行动，缺乏灵活性且难以控制，这给…

王浩然
2025年3月31日
000
AI前沿

人工智能帮助印度 Meesho 将部分客户通话成本降低 75%

软银支持的在线购物网站Meesho推出了印度电子商务公司中首个由 GenAI 驱动的客户支持语音机器人，将部分费用削减了 75%。 GenAI，即生成式人工智能，是指通过大量数据进…

王浩然
2024年11月29日
000

发表回复

Please Login to Comment

1X 发布生成世界模型来训练机器人

生成世界模型

生成模型的挑战

相关推荐

发表回复

Share To :