Meta本周发布了几项有关机器人和具身 AI 系统的重大公告。其中包括发布基准和工件,以便更好地理解和与物理世界互动。Meta 发布的三项研究工件 Sparsh、Digit 360 和 Digit Plexus 专注于触觉感知、机器人灵活性和人机交互。Meta 还发布了 PARTNR,这是评估人机协作中的规划和推理的新基准。
该报告的发布正值基础模型的进步重新引发了人们对机器人技术的兴趣,人工智能公司正逐步将竞争从数字领域扩展到物理世界。
业界重新燃起希望,相信借助大型语言模型 (LLM) 和视觉语言模型 (VLM) 等基础模型,机器人可以完成需要推理和规划的更复杂的任务。
触觉
Sparsh是与华盛顿大学和卡内基梅隆大学合作创建的,是用于基于视觉的触觉感应的编码器模型系列。它旨在为机器人提供触觉感知能力。触觉感知对于机器人任务至关重要,例如确定可以对某个物体施加多大的压力以避免损坏它。
将基于视觉的触觉传感器融入机器人任务的经典方法是使用标记数据来训练可以预测有用状态的自定义模型。这种方法无法跨不同的传感器和任务推广。
Meta 将 Sparsh 描述为一种通用模型,可应用于不同类型的基于视觉的触觉传感器和各种任务。为了克服前几代触觉感知模型面临的挑战,研究人员通过自监督学习(SSL) 训练了 Sparsh 模型,从而无需标记数据。该模型已在来自不同数据集的 460,000 多张触觉图像上进行了训练。根据研究人员的实验,在有限的标记数据预算下,Sparsh 比特定于任务和传感器的端到端模型平均提高了 95.1%。研究人员根据各种架构创建了不同版本的 Sparsh,包括Meta 的 I-JEPA和 DINO 模型。
触摸传感器
除了利用现有数据外,Meta 还发布了硬件,用于从物理上收集丰富的触觉信息。Digit 360是一种人造手指形触觉传感器,具有 18 多种传感功能。该传感器拥有超过 800 万个像素,用于捕捉指尖表面的全向和颗粒变形。Digit 360 可捕捉各种传感模式,从而更深入地了解环境和物体交互。
Digit 360 还拥有设备上的 AI 模型,以减少对云服务器的依赖。这使得它能够在本地处理信息并以最小的延迟响应触摸,类似于人类和动物的反射弧。
Meta 的研究人员写道:“除了提高机器人的灵活性之外,这种突破性的传感器还具有从医学、假肢到虚拟现实和远程呈现等重要应用的潜在价值。”
Meta 公开发布Digit 360 的代码和设计是为了促进社区推动的触觉研究和创新。但就像发布开源模型一样,其硬件和模型的潜在采用也为 Meta 带来了很多好处。研究人员认为,Digit 360 捕获的信息有助于开发更逼真的虚拟环境,这对 Meta 未来的元宇宙项目大有裨益。
Meta 还发布了 Digit Plexus,这是一个旨在促进机器人应用开发的硬件软件平台。Digit Plexus 可以将各种指尖和皮肤触觉传感器集成到一只机器人手上,对从传感器收集的触觉数据进行编码,并通过一根电缆将其传输到主机。Meta 正在发布Digit Plexus 的代码和设计,以使研究人员能够在该平台上进行构建并推进机器人灵活性研究。
Meta 将与触觉传感器制造商 GelSight Inc. 合作生产 Digit 360。他们还将与韩国机器人公司 Wonik Robotics 合作,在 Digit Plexus 平台上开发带有触觉传感器的全集成机械手。
评估人机协作
Meta 还发布了人机协作中的规划和推理任务 ( PARTNR ),这是评估人工智能模型在与人类合作完成家务时的有效性的基准。
PARTNR 建立在 Meta 的模拟环境 Habitat 之上。它包括 60 栋房屋中的 100,000 个自然语言任务,涉及 5,800 多个独特物体。该基准测试旨在评估 LLM 和 VLM 遵循人类指令的表现。Meta
的新基准测试加入了越来越多的项目,这些项目正在探索在机器人和具身 AI 设置中使用 LLM 和 VLM。在过去的一年里,这些模型已显示出巨大的潜力,可作为机器人在复杂任务中的规划和推理模块。Figure 和 Covariant 等初创公司已经开发出使用基础模型进行规划的原型。与此同时,AI 实验室正在致力于为机器人创建更好的基础模型。一个例子是 Google DeepMind 的RT-X 项目,它汇集了来自各种机器人的数据集来训练视觉-语言-动作 (VLA) 模型,该模型可推广到各种机器人形态和任务。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/meta-tui-chu-ai-gong-ju-rang-ji-qi-ren-zai-xian-shi-shi-jie