机器人新突破：一天学会1000项技能，每项只看一遍

帝国理工学院的一个机械臂，用不到24小时完成了一件事：学会操作402个不同物体，掌握1000项精细操作任务。每项任务只需要看人类演示一次。

这个成果12月发表在《Science Robotics》上。研究团队用的是Sawyer机器人，一个单臂工业机器人。

它学会的任务包括插插头、倒水、开抽屉、拧瓶盖等31类技能。

传统方法需要几百次演示才能让机器人勉强学会一个动作。这次的MT3（Multi-Task Trajectory Transfer，多任务轨迹迁移）方法，效率比传统方法高了十倍。

两步走的聪明做法

MT3的核心想法很直接：把每个任务拆成两步。

第一步是对齐。机器人先把自己或物体移到正确位置，比如把插头对准插座。第二步是交互。执行真正的操作动作，比如把插头插进去。

这个拆分很关键。因为"对齐"这个动作在很多任务里都类似，机器人可以把之前学过的对齐经验用到新任务上。插USB需要对齐，拧螺丝也需要对齐。学会一种对齐方式，就能用在几十个任务上。

第二个关键点更反常识。MT3不像神经网络那样把所有知识塞进模型里。它只是把演示录像存在记忆库里。

遇到新任务时，系统翻出最相似的旧演示，然后照着做。研究者Kamil Dreczkowski和Pietro Vitiello解释说："机器人绝不会做任何没被明确演示过的动作。"

这听起来很笨，但恰恰是优点。你能清楚看到机器人要做什么，因为它只是在重复之前见过的动作。不像深度学习那样是个黑箱，你永远不知道它会突然做出什么奇怪举动。

团队对这个系统进行了2200次评估。测试内容包括那1000个学过的任务，还有100个完全没见过的新任务。

他们还加了干扰：在桌上放无关物体，改变灯光条件。

结果显示MT3在各种场景下都保持稳定。当然也有失败的时候，主要是两种情况：一是摄像头看错了物体位置，二是系统从记忆库里调出了不合适的旧演示。但这些失败都是可以预测和理解的，不是那种莫名其妙的崩溃。

为什么MT3这么高效？因为它不浪费时间学习无用信息。

传统神经网络要学习所有任务的所有细节，包括那些其实不重要的部分。MT3只记住关键动作，需要时再调取。这就像你不需要把整本菜谱背下来，只要知道在哪能找到某道菜的做法就够了。

数据显示，在少于10次演示的情况下，MT3的学习效率比单阶段方法高了一个数量级。这对实际应用至关重要，因为现实世界不可能给你几百次演示的机会。

MT3不是完美的。当物体形状变化太大时，系统会出问题。

举个例子，从水壶倒水需要把壶嘴对准杯口。如果换个形状完全不同的容器，机器人可能需要调整倒水的角度和速度。但MT3只会重复之前见过的动作，不会即兴发挥。

另一个问题是，系统无法在两个已知动作之间做插值。如果正确做法介于演示A和演示B之间，MT3会选其中一个，而不是创造一个折中方案。

研究团队说，他们下一步要解决这些问题，让系统能根据物体几何形状调整动作。

这项研究最重要的启示是：复杂的机器人学习不需要海量数据。

过去十年，AI领域的主流思路是"数据越多越好"。训练ChatGPT用了整个互联网的文本。训练图像识别模型用了数百万张照片。

但MT3证明，在机器人领域，聪明的方法比暴力堆数据更有效。

这对工业应用的影响是直接的。工厂不需要花几个月训练机器人，家用机器人也不需要在每个家庭里重新学习。演示一次，机器人就能开始工作。

从研究原型到实用产品还有距离，但方向已经很清楚了。

来源：

Dreczkowski, K. et al. (2024). Science Robotics. DOI: 10.1126/scirobotics.adv7594