海量自动驾驶仿真场景随意变！华为等联合发布最新工具MagicDrive

曹原 2023-10-25 13:45:40 来源：量子位

白天一键换黑夜，还能换天气

曹原发自副驾寺

智能车参考|公众号AI4Auto

只需修改关键词，就能随意生成自动驾驶仿真场景！

白天、夜晚、雨天都OK，甚至还能翻转方向。

并且顺带解决了3D几何信息和多摄像头视图，集成时保证一致性这个老大难问题。

这个自动驾驶最新仿真工具叫做MagicDrive，来自香港中文大学，香港科技大学和华为诺亚方舟实验室。

为什么需要MagicDrive

因为能提供简洁、统一的视图，BEV感知最近一直是自动驾驶关注度很高的技术。

这个特点意味着还可以利用BEV感知生成仿真街道图像，可以将复杂交通场景可视化，对于提升自动驾驶感知模型的可靠性来说也至关重要。

但由于收集到的是3D信息，转换为2D图像时会丢失一些3D几何信息，比如深度、高度、物体遮挡、路面起伏程度等等。

并且也不容易做到让生成的多视角图像在空间上保持连续性。

因此，研究人员们打造出MagicDrive这个全新仿真框架，不仅做到了多视角图像的空间一致性。

△注意红框和蓝框部分

同时还让生成的仿真场景更加可控，意味着只要修改关键词，就能生成想要的仿真场景。

比如可以把原本的白天，一键修改成野外、光照不足的场景（第二排），还能把场景镜像变换（第三排）：

甚至在原本仿真场景中的车，可以一键让这些车调头（第二排），还能一键删除一半（第三排）：

不难看出，MagicDrive生成的仿真场景，不仅能做到非常逼真，同时对图中对象、道路、场景都能实现精准控制。

这又是怎么做到的？

MagicDrive技术思路

基于Diffusion模型，MagicDrive把输入的3D几何信息分为三类进行分别编码，包括场景，包括相机姿态（位置和方向）和文本输入，3D边界框和道路地图，如此就增加了对3D信息的可控性。

而在生成图像环节，MagicDrive对场景和3D边界框信息增加了一个cross-view attention模块，以保证多视图合成的一致性。

下图可明显看出，在生成图像环节加入cross-view attention模块，可以让不同视角同一辆车颜色保持一致。

再加上一个额外编码分支，协助道路地图信息生成图像，最后整体集成起来，就得到可控、一致的多视图仿真场景。

并且，论文还对MagicDrive的图像质量做出评估。

结果显示，在nuScenes数据集上，MagicDrive的FID分数很低，低于BEVGen和BEVControl等仿真技术，说明MagicDrive仿真效果很高。

在可控性方面，通过BEV分割任务进行评估，MagicDrive的效果也高于BEVGen和BEVControl。

另外，MagicDrive还能生成增强数据，支持感知任务训练，比如BEV分割和3D目标检测。

研究团队简介

本文共有7位作者，分别来自香港中文大学，香港科技大学和华为诺亚方舟实验室。

其中来自香港中文大学的高瑞元和来自香港科技大学的陈铠对论文有同等贡献。

高瑞元现在是港中文CURE实验室的博士生，师从本文通讯作者之一徐强教授。

高瑞元2020年毕业于北京航空航天大学高等理工学院，专业是计算机科学与技术，毕业后曾在商汤科技和华为诺亚方舟担任过实习生。

已经有4篇论文入选三大AI顶会，包括ECCV 2022，ICLR 2022和ICCV 2023。

陈铠现在是港科大计算机科学系博士生，导师为杨瓞仁教授（也是本文作者之一）。

陈铠本科就读于复旦大学计算机科学专业，曾是上海市优秀本科生，本科期间有两篇论文分别被IEEE Access，以及机器人技术和智能系统顶会IROS 2019录用，毕业后也在商汤科技担任过研究实习生。

目前已经有8篇论文入选各大AI顶会，包括ICCV 2021、ECCV 2022、ICLR 2023等，还担任过多个AI顶会、期刊的审稿人，包括TIP、NeurIPS 2021、IJCAI 2023、CVPR 2023等。

本文的作者还包括杨瓞仁教授。

杨瓞仁教授拥有香港大学电气工程学士学位和计算机科学硕士学位，1989年在南加州大学获得计算机科学博士学位。曾任伊利诺伊理工大学助理教授，和港科大计算机科学与工程系（CSE）代理系主任，现在是该系的讲座教授，论文被引次数超过3.58万次。

本文还有两位通讯作者，其中一位是港中文的徐强教授，是CURE实验室负责人，以及CSE系副教授。

徐强教授分别在1997年和2000年获得北京邮电大学电信工程学士和硕士学位，2005年获得加拿大麦克马斯特大学电子技术与计算机工程博士学位，后加入香港中文大学，发表论文超过130篇，被引次数达到7256次。

另一位通讯作者是谢恩泽。

谢恩泽目前是华为诺亚方舟实验室，AI理论实验室的高级研究员，拥有港大计算机科学博士学位，师从罗平教授和王文平教授。今年就有11篇论文入选三大AI顶会和一大AI顶刊，分别是ACL 2023、ICCV 2023、NeurIPS 2023，和TPAMI。

并且，谢恩泽还是当下许多流行的计算机视觉算法的开发者，包括BEVFormer、SegFormer、PVT和PolarMask，还和其他人共同开发了OpenSelfSup（mmselfsup）。

另外，本文作者Hong Lanqing和李振国同样来自华为诺亚方舟实验室。

虽然使用MagicDrive，可以让自动驾驶场景想变就变，并且保证高仿真和多视图一致性，看起来是自动驾驶仿真利器，研究人员们还是找出了一点小瑕疵，比如生成的黑夜图像不够黑，也无法生成没见过的天气。

因此，他们接下来的目标将是提高MagicDrive的跨域泛化能力。不过现在来看，可以说是瑕不掩瑜。

论文传送门：https://arxiv.org/abs/2310.02601

项目主页：https://gaoruiyuan.com/magicdrive/

代码传送门：https://github.com/cure-lab/MagicDrive

自动驾驶这个技术太酷啦

曹原

哪吒冲刺港交所IPO，上市起点碾压蔚小理，然而一步慢步步慢2024-06-28
注意，北京无人车接送机不免费了2024-06-28
广东造车新势力，爆雷了2024-06-25
百亿造车新势力破产清算！市值缩水超99%，欠债超10亿，债权人还吵起来了2024-06-24

海量自动驾驶仿真场景随意变！华为等联合发布最新工具MagicDrive

为什么需要MagicDrive

MagicDrive技术思路

研究团队简介

相关阅读

自动驾驶公司映驰科技获北汽产投&联想之星千万级人民币天使投资

英伟达最强自动驾驶芯片，联想第一个上“车”

22个月交付11款产品顾维灏中关村智能汽车论坛揭秘“毫末模式”

无人Robotaxi和交警杠上了！双方僵持不下，乘客急得跳脚

复旦教授深夜预警：不要尝试L2以上自动驾驶，模拟结果显示特定条件下必撞

脱口秀“车间一枝花”赵晓卉奔赴自动驾驶，“取关雷军”，入职文远知行

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬

海量自动驾驶仿真场景随意变！华为等联合发布最新工具MagicDrive

为什么需要MagicDrive

MagicDrive技术思路

研究团队简介

相关阅读

自动驾驶公司映驰科技获北汽产投&联想之星千万级人民币天使投资

英伟达最强自动驾驶芯片，联想第一个上“车”

22个月交付11款产品 顾维灏中关村智能汽车论坛揭秘“毫末模式”

无人Robotaxi和交警杠上了！双方僵持不下，乘客急得跳脚

复旦教授深夜预警：不要尝试L2以上自动驾驶，模拟结果显示特定条件下必撞

脱口秀“车间一枝花”赵晓卉奔赴自动驾驶，“取关雷军”，入职文远知行

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬

22个月交付11款产品顾维灏中关村智能汽车论坛揭秘“毫末模式”