-
背景
文章介绍了在机器人领域,有一个普遍的方法是针对每一个特定的机器人和任务来训练策略。这种从零开始的学习方式需要为每个任务收集大量数据,且所得策略通常只具有有限的泛化能力。存在的问题包括不同的机器人体现形式、传感器设置、动作空间、任务规范、环境以及计算预算等。 -
已有的工作 已有工作提出了可以直接将机器人的观测映射到动作上,并提供给新领域和机器人零次或几次学习的泛化能力的机器人基础模型。然而这些模型通常限制最终用户在预定义且通常较为受限的输入观察集内,例如单一摄像头流;且缺乏有效的微调到新领域的支持;更重要的是,这些大模型不对公众开放。
- 提出了一个名为Octo的通用机器人策略
-
挑战1:多样化的传感器和动作空间处理 之前的模型在应用到不同的机器人、环境和任务时面临挑战。Octo作为一种基于变换器的策略,通过预训练在来自Open X-Embodiment数据集的800k机器人演示上进行了广泛实验,证明了它在处理多样化传感器和动作空间上的有效性。可通过向模型添加适当的适配器和目标领域小数据集进行微调,来适配新的机器人设置、感官输入、动作空间或形态。
-
挑战2:开放源码和用户自适应 Octo是第一个可以高效微调到新观测和动作空间的通用机器人策略(GRP),也是第一个完全开源的通用机器人操控策略,包括训练流程、模型检查点和数据。为用户提供了前所未有的灵活性和适应性。
-
Octo的实验表明,在9个不同的机器人上跨越4个机构进行的测试中,该系统为单臂和双臂操控任务提供了最先进的多机器人控制性能,也可以作为对未见设定进行微调的有效初始化。此外,在预训练通用机器人策略时,还详细研究了不同设计决策的影响,并评估了数据分配、模型架构和策略形式的选择对预训练GRP质量的影响。评估突显了规模和灵活性的效用:表现最佳的模型是那些在数据混合范围最广、限制性归纳偏见最少,以及能够适应预训练数据中行为多样性的模型。
论文介绍了Octo,这是一种基于变换器的策略,对多样化的机器人任务提供开源的解决方案,能通过微调适应新的观测和动作空间。它在多个机器人平台上表现出色,并通过完全开放的源码鼓励广泛应用和进一步发展。