人工智能公司使用两种不同的底层视觉LLM基础模型训练了RT-2的两种变体:基于PaLM-E的12B参数版本和基于PaLI-X的55B参数版本。LLM在一般视觉语言数据集和机器人特定数据的混合上共同微调。该模型学习输出机器人运动命令的向量,该向量被视为简单的整数字符串:实际上,它是模型学习的一种新语言。最终模型能够接受机器人工作空间的图像和用户命令,例如“捡起即将从桌子上掉下来的袋子”,并从中生成运动命令来执行任务。根据人工智能公司的说法,
RT-2不仅展示了人工智能的进步如何迅速级联到机器人技术中,还展示了对更多通用机器人的巨大前景。虽然在以人为中心的环境中启用有用的机器人仍有大量工作要做,但RT-2向我们展示了机器人技术令人振奋的未来。
Google Robotics和人工智能公司已经发布了几个使用LLM进行机器人控制的系统。2022 年,InfoQ 报道了谷歌的 SayCan,它使用 LLM 为机器人生成高级行动计划,以及代码即政策,它使用 LLM 生成用于执行机器人控制的 Python 代码。两者都使用纯文本LLM来处理用户输入,视觉组件由单独的机器人模块处理。今年早些时候,InfoQ报道了谷歌的PaLM-E,它处理来自机器人传感器的多模态输入数据,并输出一系列高级动作步骤。
RT-2 建立在以前的实现 RT-1 之上。RT系列的关键思想是训练模型直接输出机器人命令,这与以前输出更高层次的运动抽象的努力相反。RT-2 和 RT-1 都接受任务的图像和文本描述作为输入。然而,虽然RT-1使用不同视觉模块的管道来生成视觉令牌以输入LLM,但RT-2使用单一视觉语言模型,如PaLM-E。
人工智能公司在6000多次试验中评估了RT-2。特别是,研究人员对其紧急能力感兴趣:即执行机器人特定训练数据中不存在的任务,但从其视觉语言预训练中出现的任务。该团队在三个任务类别上测试了RT-2:符号理解,推理和人类识别。与基线相比,RT-2实现了最佳基线的“超过3倍的平均成功率”。但是,该模型没有获得机器人训练数据中未包含的任何物理技能。
在Hacker News关于这项工作的讨论中,一位用户评论道:
看起来这项工作仍然停留在位置/速度控制而不是阻抗控制上。这本质上是输出去哪里,要么是带有控制器的闭环,要么是带有运动规划器的开环。这似乎大大降低了数据需求,但它感觉像是我们可以完成的任务的基本限制。机器人操纵之所以困难,是因为我们不仅需要考虑世界上正在发生的事情,还需要考虑我们的互动如何改变它以及我们需要如何对此做出反应。
虽然RT-2还没有开源,但RT-1的代码和数据已经开源。