机器人新突破:一天学会1000项技能,每项只看一遍

2025年12月22日

帝国理工学院的一个机械臂,用不到24小时完成了一件事:学会操作402个不同物体,掌握1000项精细操作任务。每项任务只需要看人类演示一次。

这个成果12月发表在《Science Robotics》上。研究团队用的是Sawyer机器人,一个单臂工业机器人。

它学会的任务包括插插头、倒水、开抽屉、拧瓶盖等31类技能。

传统方法需要几百次演示才能让机器人勉强学会一个动作。这次的MT3(Multi-Task Trajectory Transfer,多任务轨迹迁移)方法,效率比传统方法高了十倍。

两步走的聪明做法

MT3的核心想法很直接:把每个任务拆成两步。

第一步是对齐。机器人先把自己或物体移到正确位置,比如把插头对准插座。第二步是交互。执行真正的操作动作,比如把插头插进去。

这个拆分很关键。因为"对齐"这个动作在很多任务里都类似,机器人可以把之前学过的对齐经验用到新任务上。插USB需要对齐,拧螺丝也需要对齐。学会一种对齐方式,就能用在几十个任务上。

记忆而非学习

第二个关键点更反常识。MT3不像神经网络那样把所有知识塞进模型里。它只是把演示录像存在记忆库里。

遇到新任务时,系统翻出最相似的旧演示,然后照着做。研究者Kamil Dreczkowski和Pietro Vitiello解释说:"机器人绝不会做任何没被明确演示过的动作。"

这听起来很笨,但恰恰是优点。你能清楚看到机器人要做什么,因为它只是在重复之前见过的动作。不像深度学习那样是个黑箱,你永远不知道它会突然做出什么奇怪举动。

2200次测试

团队对这个系统进行了2200次评估。测试内容包括那1000个学过的任务,还有100个完全没见过的新任务。

他们还加了干扰:在桌上放无关物体,改变灯光条件。

结果显示MT3在各种场景下都保持稳定。当然也有失败的时候,主要是两种情况:一是摄像头看错了物体位置,二是系统从记忆库里调出了不合适的旧演示。但这些失败都是可以预测和理解的,不是那种莫名其妙的崩溃。

效率来自何处

为什么MT3这么高效?因为它不浪费时间学习无用信息。

传统神经网络要学习所有任务的所有细节,包括那些其实不重要的部分。MT3只记住关键动作,需要时再调取。这就像你不需要把整本菜谱背下来,只要知道在哪能找到某道菜的做法就够了。

数据显示,在少于10次演示的情况下,MT3的学习效率比单阶段方法高了一个数量级。这对实际应用至关重要,因为现实世界不可能给你几百次演示的机会。

局限性

MT3不是完美的。当物体形状变化太大时,系统会出问题。

举个例子,从水壶倒水需要把壶嘴对准杯口。如果换个形状完全不同的容器,机器人可能需要调整倒水的角度和速度。但MT3只会重复之前见过的动作,不会即兴发挥。

另一个问题是,系统无法在两个已知动作之间做插值。如果正确做法介于演示A和演示B之间,MT3会选其中一个,而不是创造一个折中方案。

研究团队说,他们下一步要解决这些问题,让系统能根据物体几何形状调整动作。

工业意义

这项研究最重要的启示是:复杂的机器人学习不需要海量数据。

过去十年,AI领域的主流思路是"数据越多越好"。训练ChatGPT用了整个互联网的文本。训练图像识别模型用了数百万张照片。

但MT3证明,在机器人领域,聪明的方法比暴力堆数据更有效。

这对工业应用的影响是直接的。工厂不需要花几个月训练机器人,家用机器人也不需要在每个家庭里重新学习。演示一次,机器人就能开始工作。

从研究原型到实用产品还有距离,但方向已经很清楚了。


来源:

Dreczkowski, K. et al. (2024). Science Robotics. DOI: 10.1126/scirobotics.adv7594

Tech Xplore访谈:https://techxplore.com/news/2025-12-robotic-arm-successfully-tasks-day.html

项目网站:https://www.robot-learning.uk/learning-1000-tasks