MIT推出拾物机器人「最强辅助」,少量训练样本实现自然语言控制
可拾取未知物体
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
MIT的这项新成果,让取物机器人变得更聪明了!
不仅能理解自然语言指令,还可以拾取没见过的物体。
麻麻再也不用担心我找不到东西了!
![](/wp-content/uploads/replace/87282181072cb634b296c588db3aaa79.gif)
研究人员将2D特征嵌入了三维空间,构建出了用于控制机器人的特征场(F3RM)。
这样一来,在2D图像中构建的图像特征和语义数据,就能被三维的机器人理解并使用了。
不仅操作简单,训练过程中需要的样本量也很小。
低训练样本实现轻松取物
我们可以看到,在F3RM的帮助下,机器人可以娴熟地拾取目标物体。
![](/wp-content/uploads/replace/88c5bc76d1e366a0b0428dd8b41d553a.gif)
![](/wp-content/uploads/replace/f3265193dea67569ed4791d68050fd0c.gif)
哪怕要找出机器人没遇见过的物体,同样不是问题。
比如……大白(玩偶)。
![](/wp-content/uploads/replace/b6722bd8bc8443bbef43bfd9aba68214.gif)
对于场景中的同种物品,可以根据颜色等信息进行区别。
比如分别拾取同一场景中蓝色和红色两种不同的螺丝刀。
![](/wp-content/uploads/replace/fbdf8b9d4f8a6b77cf5e72abfcf6617a.gif)
![](/wp-content/uploads/replace/4a4eff34eda685e74e4284ad3c0ec895.gif)
不仅如此,还可以要求机器人抓取物体的特定位置。
比如这个杯子,我们可以指定机器人抓住杯身或者杯把。
![](/wp-content/uploads/replace/465dbf8229350c0aa2f87aa5d54030c6.gif)
![](/wp-content/uploads/replace/56cc1796d6936ee0ea0ec340ead9ac05.gif)
除了拾取问题,还可以让机器人把拾到的东西放到指定位置。
比如把杯子分别放到木制和透明的支架上。
![](/wp-content/uploads/replace/21217d1b3b64e86ee455199b7c2e3f51.gif)
而从统计结果上看,对不同数据集的成功率均达到了60%,其中在CLIP ResNet数据集上的成功率达到了78%。
对于由语言控制的操纵,也有62%的成功率。
![](/wp-content/uploads/replace/2fc246b4d3d8e3f0e841186a3fc6a73c.png)
那么,如何利用F3RM帮助机器人工作呢?
将2D特征投射到三维空间
下面这张图大致描述了利用F3RM帮助机器人拾取物品工作流程。
F3RM是一个特征场,要想让它发挥作用,首先要得到有关数据。
下图中的前两个环节就是在获取F3RM信息。
![](/wp-content/uploads/replace/5a5d1521a1ddea77fdea88005309aab2.png)
首先,机器人通过摄像头对场景进行扫描。
扫描过程会得到多个角度的RGB图像,同时得到图像特征。
![](/wp-content/uploads/replace/9cd46b0c0df55ed77c107f10bc24b4cc.gif)
利用NeRF技术,对这些图像做2D密度信息提取,并投射到三维空间。
图像和密度特征的提取使用了如下的算法:
![](/wp-content/uploads/replace/47eef0c704dc31d9be1f09deaac2dfcd.png)
这样就得到了这一场景的3D特征场,可供机器人使用。
![](/wp-content/uploads/replace/fd63d30811258a0cc38daddbc485fbd9.gif)
得到特征场之后,机器人还需要知道对不同的物体需要如何操作才能拾取。
这一过程当中,机器人会学习相对应的六个自由度的手臂动作信息。
![](/wp-content/uploads/replace/2b4a51a783140370a000bc82893692cb.gif)
如果遇到陌生场景,则会计算与已知数据的相似度。
然后通过对动作进行优化,使相似度达到最大化,以实现未知环境的操作。
自然语言控制的过程与上一步骤十分相似。
首先会根据指令从CLIP数据集中找到特征信息,并在机器的知识库检索相似度最高的DEMO。
然后同样是对预测的姿势进行优化,以达到最高的相似度。
优化完毕之后,执行相应的动作就可以把物体拾起来了。
经过这样的过程,就得到了低样本量的语言控制取物机器人。
团队简介
研究团队成员全部来自MIT的CSAIL实验室(计算机科学与人工智能实验室)。
该实验室是MIT最大的实验室,2003年由CS和AI两个实验室合并而成。
共同一作是华裔博士生William Shen,和华人博后杨歌,由Phillip Isola 和Leslie Kaelbling监督指导。他们来自于MIT CSAIL(计算机和人工智能实验室)和IAIFI(人工智能和基础相互作用研究院 )。 其中杨歌是2023年CSAIL具身智能研讨会 (Embodied Intelligence Seminar) 的共同筹办人.
左:William Shen,右:杨歌
论文地址:
https://arxiv.org/abs/2308.07931
项目主页:
https://f3rm.github.io
MIT 具身智能 团队
https://ei.csail.mit.edu/people.html
具身智能研讨会
https://www.youtube.com/channel/UCnXGbvgu9071i3koFooncAw
- 打乱/跳过Transformer层会怎样?最新研究揭开其信息流动机制,一口气解答8大问题2024-07-26
- 谷歌AI拿下IMO银牌,仅差一分得金!第四题仅用时19秒2024-07-26
- 港大马毅:大模型长期没有理论就像盲人摸象;大佬齐聚谈AI下一步2024-07-24
- 贾扬清共一论文获ICML时间检验奖:首个开源版AlexNet,著名框架Caffe前身,最佳论文奖也已公布2024-07-24