Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.7 KB

2401.12963.md

File metadata and controls

20 lines (15 loc) · 2.7 KB

背景

  • 背景
    该论文研究的主要是如何在大规模、开放式的环境中进行自动化的机器人体验数据的收集与应用。当前的机器人学习方法虽然为获取单一技能提供了解决方案,但在处理无限多的任务以及在多种设定中泛化的机器人方面仍然面临重大挑战。现有的机器人数据集多为实验室环境中收集,而真实世界中需要的数据量远超这些收集的数据。

  • 已有的工作为什么解决不了 已有的工作通常集中于受限的实验室环境中,以及依赖于大量人类援助的数据收集方式,这大大限制了数据的多样性和规模。自动化的数据收集必须能够跨越不同环境,并能够在仅有有限人类监管的情况下操作。

核心贡献

  • 提出了一个系统AutoRT
    • 挑战1:如何在未知场景中大规模部署操作机器人并收集数据? AutoRT系统利用现有的基础模型,使机器人在几乎无人监管的条件下,针对完全未知的情况进行操作。通过整合视觉语言模型(VLMs)进行场景理解和基于大型语言模型(LLMs)产生多样化和新颖的指令,AutoRT能够在考虑自主权和安全性的同时,显著扩大机器人学习的数据收集规模。

    • 挑战2:如何保证收集到的数据可靠,且能够提高机器人泛化能力? AutoRT在真实世界的不同建筑中,通过自主建议任务并收集超过77k个机器人操作实例来实现。AutoRT不仅收集到的数据具有高度多样性,而且可以通过提示和批评以及机器人宪法的方式实现与人类偏好的一致性。

实现与部署

经过7个月、4座不同的办公大楼以及超过20台机器人的现实世界评估,AutoRT系统收集了77,000个实际机器人试验的结果。这些机器人试验既包括遥控操作,也包括自主执行。通过允许一个人监督3-5台移动操作机器人,AutoRT扩展了机器人部署的规模。评估研究了AutoRT如何收集高度多样化的数据,如何被指示收集任务相关的数据,并展示了这些数据可以用于改进最先进的机器人学习模型。AutoRT还引入了使用提示和具体批评来对齐机器人行为与人类偏好的方法。

总结

本论文描述了一个名为AutoRT的系统,它利用大型基础模型控制真实世界中的机器人,使它们能够自动导航并执行任务。这标志着第一次实现LLM控制的机器人在真实环境中进行自动操作、提出目标并实现这些目标。通过AutoRT收集到的数据不仅多样化且能够提高机器人学习模型的性能,并且可以与人类偏好保持一致。