马斯克机器人大进化!全新技能解锁,启用端到端神经网络
光子进,行为出
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
马斯克的机器人大进化。
一年前首次上台时动作还略显僵硬,现在居然成了瑜伽大师。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/c141dd9fa5be46e33565dfa136024de4.gif)
还用上了自动驾驶系统同款的端到端神经网络架构,无需任何规则代码就学会分拣物品。
用马斯克自己的话说:
光子进,行为出。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/50891945f6f0cb09cb09ee03345f5832.gif)
网友表示:动作如此优雅流畅,很难相信视频是真的。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/6d1faba33b094a315833580b74934bc7.png)
马斯克回复:执行器、传感器和整体机械结构更多升级还在后面。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/793513344e7cf0d1e7d69395ebe4c983.png)
有人注意到机器人脖子后面有个红色按钮,“如果机器人要统治世界了,别忘了按这个”。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/de627d1938eadd33191b423be255337c.png)
对此,马斯克表示会致力于最大限度地提高安全性,用遥控器或手机就能轻松暂停机器人。
马斯克发这个视频,除了公布进展,更大的目的在于为机器人团队招聘,也展示了平台的招聘功能。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/ef666806c8789d77bd1823a705c1d0e9.png)
这次特斯拉机器人团队招聘各类硬件工程师及机器学习工程师、实习生,总计51个职位。
年薪范围在8万美元到36万美元(约人民币60万元-260万元)。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/cd7d8710a064e1aef5d1fa6f19317170.png)
更新拆解
这次特斯拉擎天柱官方号只放出1分钟视频,没有更多技术细节资料。
但特斯拉机器人团队资深主任工程师Julian Ibarz透露,现在擎天柱已经能完成长期任务。
并且只要收集更多数据,就可以训练新的复杂任务,无需更改任何代码。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/fb46935363c1aee0f63d181522bc2181.png)
第三方观点中,最详细的是英伟达科学家范麟熙纯基于视频的长篇逆向分析。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/2b572c41154e81ca5a82830650a229c5.png)
他推测:
- 流畅的手部动作几乎肯定是通过模仿人类(行为克隆)训练出来的。
另一种选择是模拟环境中的强化学习,但通常会导致抖动和不自然的手部姿势。
至少有4种方法可以收集人类演示数据,其中最有可能的是远程控制。
可以参考斯坦福开源的ALOHA系统,可以控制机械臂把AirPods放到充电盒里。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/46b6107e7e753a8b3e8baf5afa1dbab3.gif)
另外三种方法是电影游戏常用的动作捕捉、深度摄像头和计算机视觉、VR模拟。
四种方法并不相互排斥,可以结合使用兼顾不同的优缺点。
- 神经网络架构,很可能是多模态Transformer。
图像、视频、动作、语言(不确定有没有)统一表征,其中动作部分需要将连续的信号转为离散的token,
最终每次输入一个视频token(或可选的语言token),输出动作token。
最接近的系统可以参考Google RT-1以及英伟达的VIMA。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/a9e0694121b056d49229a591a7d0fcd7.png)
- 波士顿动力的Atlas机器人只有简单的抓手,而特斯拉擎天柱有5根灵巧的手指,将来在日常任务中表现会更加出色。
不过也有人批评视频其实有约2-3倍的加速,只有机器人的时候看不出来,人类一出镜就比较明显了。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/598c23599aa6a47cd9a5482e0edfb3e7.gif)
端到端架构:机器人的ChatGPT
端到端神经网络架构,特斯拉首先在自动驾驶FSD上实现——
前不久马斯克自己直播演示了一把自动驾驶去小扎家,引发轰动。
具体说来,端到端架构用在自动驾驶系统上,可以减少30万行规则代码,让运行速度快了10倍。
负责该项目的工程师Dhaval Shroff曾对马斯克说:这相当于车上用的ChatGPT。
Shroff这次对机器人的评价是“端到端,FTW”。也不知道FTW是指“For the win”还是“F* the world”。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/3e3d2db13b432c1f0ba4a8e8132eed0a.png)
就在刚刚,还有一段特斯拉汽车无导航情况下在湖边自动驾驶的视频传出,不过不确定是否运行了最新端到端架构的FSDv12。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/470082a822da231145efa2b19d7fe350.gif)
One More Thing
这个周末,旧金山街头也出现赛博皮卡的身影。
![马斯克机器人大进化!全新技能解锁,启用端到端神经网络](/wp-content/uploads/replace/39aaf16c4d82e76090ee3b0d2b7c123d.gif)
预计在9月底,特斯拉将召开一年一度的AI Day活动,我们也会持续关注。
不知道这次又将带来哪些惊喜。
参考链接:
[1]https://x.com/Tesla_Optimus/status/1705728820693668189
[2]https://x.com/DrJimFan/status/1705982525825503282
[3]https://x.com/AviSchiffmann/status/1705743064336384506
- Llama 3.1上线就被攻破:大骂小扎,危险配方张口就来!指令遵循能力强了更容易越狱2024-07-24
- 陶哲轩在IMO上给AI团队颁奖!他们要做AI数学的ImageNet2024-07-21
- 国内开店卷不动,换上AI出海试试2024-07-17
- OpenAI突发新模型,GPT-3.5退役,大模型成本2年骤降99%2024-07-19