人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论
解决数据的先有鸡先有蛋难题
梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI
斯坦福最新“技能转移”大法,让人类沦为给机器人提供训练数据的工具人。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/54050a84bfad63e32b568c3e67e941e2.gif)
小哥拿上机械手做示范,机器人就能从收集到的数据中学会刷碗,并且能随机应变。
打开水龙头、抓取盘子、用百洁布清洗一气呵成,外界干扰使坏也不怕。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/15b084846e96c6c2786b8d92fdfb41d8.gif)
整套系统从硬件到代码完全开源,成本只需400美元,就可以在没有机器人的情况下收集训练机器人所需数据。
更详细的3D打印、组装教程视频也即将发布。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/1285384ee122465c36cbab21e0687f8f.png)
要知道,在这项工作之前要想大规模训练机器人be like:
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/db83061d191ea0b036f9c9864c54bcb7.png)
对此,李飞飞团队具身智能成果VoxPoser一作黄文龙表示:惊人的工作,破解了机器人数据收集中的先有鸡先有蛋难题。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/c1a39bfc2d95f1e89f350bd41281bc5a.png)
有网友觉得,这项工作和之前爆火的斯坦福家务机器人ALOHA等工作同样令人印象深刻。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/457e05a3d14f83fdfc43044e14212d6a.png)
实际上,都是来自斯坦福大学的两个团队,已经在实验室里带着各自的机器人对练碰拳、握手了。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/319bf3bb718c35e77c05e54ef6a0d3db.gif)
破解数据的先有鸡先有蛋难题
新方法收集数据的秘密,就藏在这对手持夹持器里。
左右手各一个300美元的Go Pro摄像头,搭配一面镜子就能得到隐式立体信息,大大节省成本和重量。
再加上内置的惯性传感器,联合优化视觉跟踪和惯性姿态。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/e5d14d9c1943f9324fb1713b7b31e546.gif)
录好的第一视角演示影像就像这样:
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/2668b2a7347db3c289d7f38988e3457e.gif)
机器人学会之后,即使照明环境发生剧烈变化也丝毫不受影响。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/dd3e211aee2a5457e4c054281463c17c.gif)
再叠加上人为干扰,机器人最后也不忘把水龙头关好。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/0ec3924c0e7d900d6c0f877b35272de3.gif)
除刷碗之外,还展示了叠衣服、摆放餐具和抛物投篮,都是学习了人类演示后,机器人全自主行动无遥控,1倍速播放。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/79a5c014a92f71823d5e5df702e081dd.gif)
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/df1698a98f8a0d68932eb7efc6dc21bf.gif)
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/298657dd6f5f8cd92aa851eda60e9fd8.gif)
通用操作接口
斯坦福的这项研究名为通用操作接口(UMI),是一种数据收集和策略学习框架,允许将技能从人类演示直接转移到可部署的机器人策略。
其中硬件,设计了一个手持夹持器,长这样婶儿:
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/89e2c6978ae5c3bb16648f100bf4226a.png)
上面搭载的GoPro运动相机,是唯一的传感器和记录设备,这种设计可以最小化人机观测空间上的差异,保证策略部署时的鲁棒性,同时也简化了硬件搭建。
相机配有155°宽视角鱼眼镜头,可以收集足够的视觉上下文和关键深度信息。相机的两边还配有两块物理侧镜,用于提供隐式的立体视角,辅助深度估计。
下图中绿色框圈出的部分就是侧镜在相机镜头上的显示:
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/5313d7391e015f3f470ad921dccc5bd2.png)
结合内置的IMU传感器,UMI能够在快速运动下稳健跟踪,即使在运动模糊或视觉特征缺失时也能在短时间内保持跟踪。
并且,可以通过视觉标记实时检测夹持器张开宽度,进行精细和连续的抓取控制,同时可隐式检测抓取力度。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/2f597ae4174f32e6f2800485c2dc2a16.gif)
总的来说,UMI夹持器的重量为780克,其中3D打印的夹持器材料成本为73美元,GoPro相机及配件的总成本为298美元。
可谓集便携、低成本、信息丰富的数据收集于一身,在任何家庭或餐厅,2分钟内就可以开始进行数据收集。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/6cdcf1b4a6d24ee83c07f7969be5c5ae.gif)
再来看策略接口设计。
UMI在观测和推理时间上可能会有延迟,为此研究人员进行了延迟匹配。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/f250c4ab4cfdccfda85e9ac7515fb2af.png)
具体来说,测量不同数据流的延迟将其对齐到最大延迟,通过图像时间戳进行线性插值,获得同步观测序列;测量机械臂和手持夹持器延迟,提前对应时间发送控制指令。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/7eaacffbd7ea2cb6a3b2c89be05fec1f.png)
此外,作为策略输入的端效器(机械臂)位姿状态采用的是相对位姿序列的表示方法,所以与机器人基座的位置无关,可跨多个机器人平台部署,不需要重新训练或校准。
凭借多样化操作数据集,UMI能训练出一个扩散策略(Diffusion Policy),实现零样本泛化到新环境和对象,使得机器人在新环境下执行任务,也能展示出高度的适应性和灵活性。
扩散策略基于团队之前的研究成果,把扩散模型用于机器人视觉运动策略学习,可优雅地处理多模态动作分布、适用于高维动作空间以及表现出令人印象深刻的训练稳定性。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/f55a6922de8aece968b03a4586d95718.png)
做到即使是水上作业也游刃有余:
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/a60ac6c4267e2cf4693e1faf8580a1a0.gif)
斯隆奖得主领衔
UMI来自斯坦福大学 、哥伦比亚大学 、丰田研究院联合团队。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/f0c2f40898c6a9328eb8c89771bb5e3e.png)
通讯作者为斯隆奖得主、斯坦福助理教授、哥伦比亚大学兼职副教授宋舒然,两位共同一作都是宋舒然的博士生。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/45319a881a26b8257ed2a6b37290e102.png)
论文公布后,她还补充总结了在这个项目中学到的三件事:
- 通过正确的硬件设计,腕戴式相机足以应对具有挑战性的操作任务。
- 通过合适的策略接口,可以实现跨实体(cross-embodiment)的策略。
- 如果数据合适,行为克隆(BC)可以实现泛化。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/bc7fc1f2652758c97f34787406f94ad5.png)
共同一作Cheng Chi(迟宬),哥伦比亚大学博士生及斯坦福Student of New Faculty。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/b6e49adbea71b70ea53655ff2dc22e79.png)
共同一作上交大校友Zhenjia Xu,哥伦比亚大学博士生及斯坦福大学机器人与具身智能实验室 (REAL)成员。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/be2ac0ada7acec49f472c71882b75219.png)
Cheng Chi认为,新方法在大多数任务上实现了70-90%的成功率,但仍然没有达到商业部署的标准。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/7ef64ca09aa098c048c1b17dc89ad349.png)
最后还自曝了一波UMI系统的翻车集锦。
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/a1b1fc9d1b3419ad138579c298ddad0a.gif)
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/6643a74282e3b45ef8ae05931883e705.gif)
![人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论](/wp-content/uploads/replace/3147d5daf8baf7c260b477fb8a7a9487.gif)
可以看出,机器人在真实场景中还会碰到很多意想不到的问题,但这回新方法启动了数据飞轮,解决也只是时间问题。
论文地址:
https://umi-gripper.github.io
参考链接:
[1]https://twitter.com/chichengcc/status/1758539728444629158
[2]https://twitter.com/chichengcc/status/1758539728444629158
- 打乱/跳过Transformer层会怎样?最新研究揭开其信息流动机制,一口气解答8大问题2024-07-26
- 谷歌AI拿下IMO银牌,仅差一分得金!第四题仅用时19秒2024-07-26
- 港大马毅:大模型长期没有理论就像盲人摸象;大佬齐聚谈AI下一步2024-07-24
- 贾扬清共一论文获ICML时间检验奖:首个开源版AlexNet,著名框架Caffe前身,最佳论文奖也已公布2024-07-24