您当前的位置是:  首页 > 技术 > 国外技术 >
 首页 > 技术 > 国外技术 > 谷歌人工智能公司宣布推出基于LLM的机器人控制器RT-2 用于其视觉-语言-行动

谷歌人工智能公司宣布推出基于LLM的机器人控制器RT-2 用于其视觉-语言-行动

2023-10-18 15:45:18   作者:   来源:CTI论坛原创   评论:0  点击:


  谷歌人工智能公司最近宣布了机器人变压器2,这是一种用于控制机器人的视觉-语言-行动人工智能模型。RT-2使用微调的LLM来输出运动控制命令。它可以执行未明确包含在训练数据中的任务,并在紧急技能评估中将基线模型改进多达 3 倍。

  人工智能公司使用两种不同的底层视觉LLM基础模型训练了RT-2的两种变体:基于PaLM-E的12B参数版本和基于PaLI-X的55B参数版本。LLM在一般视觉语言数据集和机器人特定数据的混合上共同微调。该模型学习输出机器人运动命令的向量,该向量被视为简单的整数字符串:实际上,它是模型学习的一种新语言。最终模型能够接受机器人工作空间的图像和用户命令,例如“捡起即将从桌子上掉下来的袋子”,并从中生成运动命令来执行任务。根据人工智能公司的说法,

  RT-2不仅展示了人工智能的进步如何迅速级联到机器人技术中,还展示了对更多通用机器人的巨大前景。虽然在以人为中心的环境中启用有用的机器人仍有大量工作要做,但RT-2向我们展示了机器人技术令人振奋的未来。

  Google Robotics和人工智能公司已经发布了几个使用LLM进行机器人控制的系统。2022 年,InfoQ 报道了谷歌的 SayCan,它使用 LLM 为机器人生成高级行动计划,以及代码即政策,它使用 LLM 生成用于执行机器人控制的 Python 代码。两者都使用纯文本LLM来处理用户输入,视觉组件由单独的机器人模块处理。今年早些时候,InfoQ报道了谷歌的PaLM-E,它处理来自机器人传感器的多模态输入数据,并输出一系列高级动作步骤。

  RT-2 建立在以前的实现 RT-1 之上。RT系列的关键思想是训练模型直接输出机器人命令,这与以前输出更高层次的运动抽象的努力相反。RT-2 和 RT-1 都接受任务的图像和文本描述作为输入。然而,虽然RT-1使用不同视觉模块的管道来生成视觉令牌以输入LLM,但RT-2使用单一视觉语言模型,如PaLM-E。

  人工智能公司在6000多次试验中评估了RT-2。特别是,研究人员对其紧急能力感兴趣:即执行机器人特定训练数据中不存在的任务,但从其视觉语言预训练中出现的任务。该团队在三个任务类别上测试了RT-2:符号理解,推理和人类识别。与基线相比,RT-2实现了最佳基线的“超过3倍的平均成功率”。但是,该模型没有获得机器人训练数据中未包含的任何物理技能。

  在Hacker News关于这项工作的讨论中,一位用户评论道:

  看起来这项工作仍然停留在位置/速度控制而不是阻抗控制上。这本质上是输出去哪里,要么是带有控制器的闭环,要么是带有运动规划器的开环。这似乎大大降低了数据需求,但它感觉像是我们可以完成的任务的基本限制。机器人操纵之所以困难,是因为我们不仅需要考虑世界上正在发生的事情,还需要考虑我们的互动如何改变它以及我们需要如何对此做出反应。

  虽然RT-2还没有开源,但RT-1的代码和数据已经开源。

【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

相关阅读:

专题

CTI论坛会员企业