模型使得构建和部署能够执行复杂任务的人工智能机器人变得更加容易。

开源代码库Hugging Face推出了一种机器人 基础人工智能模型,可将自然语言命令转化为身体动作。
该模型名为 Pi0,由人工智能机器人初创公司 Physical Intelligence 开发,并移植到 Hugging Face 的 LeRobot 平台。
Hugging Face 首席研究科学家 Remi Cadene 在 X 上表示,该模型是目前最先进的视觉语言动作模型。
他说:“它以自然语言命令作为输入并直接输出自主行为。”
Pi0 可以控制各种不同的机器人,既可以执行特定任务,也可以训练其应对更具挑战性的场景。它还可以根据个人或公司自己的数据集进行微调。
物理智能利用来自 7 个机器人平台的数据以及 68 项之前被认为对于机器人来说过于复杂的独特任务来训练模型,其中包括折叠衣物、等候餐桌和包装杂货。
该公司在一篇博客文章中表示,经过 8 个月的开发,Pi0 是迈向人工智能的第一步,它可以让用户简单地要求机器人执行他们想要的任何任务,就像他们目前对大型语言模型 (LLM) 和聊天机器人助手所做的那样。
报告称:“折叠一件衬衫或清理一张桌子需要解决一些有史以来最困难的工程问题。”
“与 LLM 一样,我们的模型是在广泛而多样的数据上进行训练的,可以遵循各种文本指令。与 LLM 不同的是,它涵盖图像、文本和动作,并通过对机器人的具体经验进行训练来获得物理智能,学习通过新颖的架构直接输出低级运动命令。”
Hugging Face 工程师还在博客中表示,新模型为 Hugging Face 生态系统带来了通用机器人智能,也是机器人基础模型首次通过开源平台广泛应用。
Avrio 研究所首席执行官兼总裁 Shawn DuBravac表示,Pi0 有潜力降低机器人技术应用的门槛,因为它可以减少所需的时间和成本,并允许非程序员用自然语言代替编码命令来指挥机器人。Avrio 研究所致力于与各家公司合作,了解技术变革。
“它还可以改变组织部署的机器人类型,”DuBravac 说。“组织可以构建和部署通用机器人,这些机器人只需进行最少的重新编程,就可以为不同的环境分配新任务,而不是为单一的特定用例设计机器人。”
在基础模型的基础上,Physical Intelligence 还推出了 Pio-Fast,这是一个增强版本,它采用了一种称为频率空间动作序列标记化的标记方案。该公司表示,它的训练速度提高了五倍,并且在不同环境和机器人类型中表现出更好的泛化能力。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/hugging-face-tui-chu-yong-yu-ji-qi-ren-ming-ling-de-zi-ran