谷歌人工智能公司宣布推出基于LLM的机器人控制器RT-2 用于其视觉-语言-行动

　　谷歌人工智能公司最近宣布了机器人变压器2，这是一种用于控制机器人的视觉-语言-行动人工智能模型。RT-2使用微调的LLM来输出运动控制命令。它可以执行未明确包含在训练数据中的任务，并在紧急技能评估中将基线模型改进多达 3 倍。

　　人工智能公司使用两种不同的底层视觉LLM基础模型训练了RT-2的两种变体：基于PaLM-E的12B参数版本和基于PaLI-X的55B参数版本。LLM在一般视觉语言数据集和机器人特定数据的混合上共同微调。该模型学习输出机器人运动命令的向量，该向量被视为简单的整数字符串：实际上，它是模型学习的一种新语言。最终模型能够接受机器人工作空间的图像和用户命令，例如“捡起即将从桌子上掉下来的袋子”，并从中生成运动命令来执行任务。根据人工智能公司的说法，

　　RT-2不仅展示了人工智能的进步如何迅速级联到机器人技术中，还展示了对更多通用机器人的巨大前景。虽然在以人为中心的环境中启用有用的机器人仍有大量工作要做，但RT-2向我们展示了机器人技术令人振奋的未来。

　　Google Robotics和人工智能公司已经发布了几个使用LLM进行机器人控制的系统。2022 年，InfoQ 报道了谷歌的 SayCan，它使用 LLM 为机器人生成高级行动计划，以及代码即政策，它使用 LLM 生成用于执行机器人控制的 Python 代码。两者都使用纯文本LLM来处理用户输入，视觉组件由单独的机器人模块处理。今年早些时候，InfoQ报道了谷歌的PaLM-E，它处理来自机器人传感器的多模态输入数据，并输出一系列高级动作步骤。

　　RT-2 建立在以前的实现 RT-1 之上。RT系列的关键思想是训练模型直接输出机器人命令，这与以前输出更高层次的运动抽象的努力相反。RT-2 和 RT-1 都接受任务的图像和文本描述作为输入。然而，虽然RT-1使用不同视觉模块的管道来生成视觉令牌以输入LLM，但RT-2使用单一视觉语言模型，如PaLM-E。

　　人工智能公司在6000多次试验中评估了RT-2。特别是，研究人员对其紧急能力感兴趣：即执行机器人特定训练数据中不存在的任务，但从其视觉语言预训练中出现的任务。该团队在三个任务类别上测试了RT-2：符号理解，推理和人类识别。与基线相比，RT-2实现了最佳基线的“超过3倍的平均成功率”。但是，该模型没有获得机器人训练数据中未包含的任何物理技能。

　　在Hacker News关于这项工作的讨论中，一位用户评论道：

　　看起来这项工作仍然停留在位置/速度控制而不是阻抗控制上。这本质上是输出去哪里，要么是带有控制器的闭环，要么是带有运动规划器的开环。这似乎大大降低了数据需求，但它感觉像是我们可以完成的任务的基本限制。机器人操纵之所以困难，是因为我们不仅需要考虑世界上正在发生的事情，还需要考虑我们的互动如何改变它以及我们需要如何对此做出反应。

　　虽然RT-2还没有开源，但RT-1的代码和数据已经开源。

专题

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业