< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

Apollo Lite两周年：纯视觉L4级无人驾驶技术挑战复杂城市场景

雷刚 2020-12-14 14:43:55 来源：量子位

百度要背叛激光雷达方案了吗？

百度智能驾驶事业群组技术委员会 | 文
量子位出品 | 公众号 QbitAI

编者按：

百度背叛激光雷达路线了吗？2019年夏的CVPR，纯视觉方案Apollo Lite第一次亮相开始，这种猜疑就没停过。一年后，自动驾驶江湖中的两条路，愈加清晰分明。

一方面，自动驾驶公司纷纷增加车端激光雷达数量，提升雷达扫描密度，传感器“军备竞赛”趋势延续。另一方面，车企基于纯视觉方案的“全自动”驾驶功能交付无期。

而百度Apollo Lite，成为了国内唯一纯视觉L4级城市道路自动驾驶解决方案。并且Apollo Lite还以自主泊车产品AVP和领航辅助驾驶产品ANP，实现了L4能力的降维商用。

这条纯视觉路线背后，百度Apollo究竟有何逻辑？技术和产品上有哪些不为人知的考量？未来又如何落地发展？

在Apollo Lite诞生两周年之际，没有人比百度Apollo技术委员会自身，更适合揭秘了。我们邀请他们以第一亲历者身份，完整讲诉Apollo Lite相关的一切。

以下是专栏全文：

《Apollo Lite两周年：纯视觉L4级无人驾驶技术挑战复杂城市场景》

01 为什么是视觉方案？

2019年美国长滩，面对台下听众关于Apollo Lite诞生是否意味着百度将放弃其现有激光雷达技术方案的提问，Apollo技术委员会主席王亮表达了百度的技术主张：

“在L4级自动驾驶传感器选型上，激光雷达和摄像头不是排它的，也不是单纯的从属或互补关系，从安全性考虑，二者具备相同的重要性和不可替代性，缺一不可。”

谈论纯视觉方案，一个绕不过去的话题是自动驾驶领域长期存在的路线之争，一方是以Waymo为代表的Robotaxi阵营，选择用相对昂贵的旋转式激光雷达辅以多路摄像头和毫米波雷达直接落地L4级自动驾驶。

另一边是以Tesla为代表的渐进式阵营，志在依托海量数据和深度学习从辅助驾驶起步跨越无人鸿沟，其商业模式决定了纯视觉方案是兼顾驾驶体验和成本的产品最优解。

一年后，百度的技术主张发生变化了吗？长跑途中，百度将如何站队又选择了什么技术路线呢？

针对技术路线问题，王亮给出了百度的思考：无人驾驶的规模化落地是一次长征，除有笃定的信念支撑，更要基于正确的路线才能到达目的地。

何谓“正确”？百度眼中，路线设定既不是权衡利弊后的选择站队，也不是简单一句“各取所长，避之所短”，百度寻求的是一条符合国情同时也最适合百度的技术路线。

Robotaxi商业模式验证途中最大的技术挑战是「无人」（去掉安全员），过程中要平衡的两个关键因素是“能力”和“规模”，二者相辅相成，不具备过硬的驾驶能力无法在扩展规模同时保证安全，反之规模跟不上，驾驶系统无法获得充分验证。

百度内部牵引研发的两大核心指标是「安全」和「成本」，安全保障结合有竞争力的成本能够助力百度尽早跨入规模化运营阶段，逐步实现拿掉安全员的终局目标。

为何在激光雷达技术方案进展顺利的同时转向发力纯视觉技术？背后的逻辑，与百度的实践经验和技术主张密不可分。

激光雷达 – 拥抱生态

年初Waymo推出其第五代自动驾驶传感器套件，包括对其自研激光雷达的全方位升级。大洋彼岸的Cruise、Argo、Aurora等头部公司也通过「收购+自研」布局未来的激光雷达产品。

而百度选择了一种「不一样」的路线，王亮表示：“Apollo从第一天起就明确走开放道路，百度选择聚焦自己擅长的事情，我们充分信任合作伙伴的设计制造能力和创新速度，用开放共赢的心态拥抱生态。

与全自研或借收购押注某类原型产品相比，我们相信拥有大规模用户和成熟供应链体系的生态合作伙伴必将迭代出性价比更优的产品，百度愿意在攀峰途中与合作伙伴紧密配合共同成长。“

选择自由 – 拿到视觉船票

激光雷达市场百花齐放，谁家能跑赢Robotaxi商业化阶段的规模化量产尚不清晰，缺少自研抓手又如何紧随行业趋势适配前沿雷达产品呢？面对不确定性，百度也有自己的思考和应对。

“在我们的技术规划中，未来百度在激光雷达的选择上要更从容。重度依赖激光雷达的感知系统面临的问题之一便是雷达技术的更新换代。当今基于三维点云的环境感知算法已全面拥抱Learning化和数据驱动，感知效果飞速提升同时对标注数据的累积也更加倚重，不轻易更换雷达的顾虑，部分来自传感器数据变更后给现有感知模型的复用和泛化带来的挑战，前期构筑的数据壁垒优势也难以保持。相比成像原理和时空采样密度各异的激光雷达，视觉成像技术的发展趋势清晰，视觉感知在数据标注、数据复用和模型泛化技术上都更加成熟可控。”

百度对视觉技术的布局意图清晰，通过压强视觉技术研发获得纯视觉L4级闭环能力意味着拿到了一张船票，让百度在激烈的自动驾驶技术竞争中保持成本和数据优势，对激光雷达的选择更敏捷自由。

冗余 – 做正确的事

使用单传感器解决复杂的环境感知问题总会遇到短期无法跨越的深沟固垒，对「传感器融合」五字的理解实践，业内也不尽相同。

起跑阶段，百度和大多数同行今天的做法类似，面对困难选择做容易的事情，从快速解决问题的目标出发设计融合策略，难免避重就轻地利用异构传感器各自的优势进行取长补短，快速收敛问题背后的代价是系统实现维护难度的增加和对安全问题自身可解释性的忽视，长此以往，借助叠加厚重策略和参数假设解决长尾问题的路径步履维艰。

在追求自动驾驶安全的实践中百度对传感器融合的认知也在发生变化，概率上保证感知结果的可解释性和完备性意味着多套能够支撑自动驾驶的感知系统独立工作相互校验，融合端减少策略深度耦合引入的数据依赖与人为假设。

大道至简的思想背后，传感器间的「主次」概念逐渐淡化，新理念也对单传感器感知能力提出了更高要求。对于视觉感知，对其作用的定位不再局限于为激光雷达查漏补缺或者解决某些子任务，转而追求独当一面的全栈能力。

(完整视频详见公众号）

02 Apollo Lite两周年画像

2019年初Apollo Lite启动了在北京稻香湖路网内的开放道路测试，经过长期实测，对稻香湖道路环境驾轻就熟的Apollo Lite选择挑战更复杂的城市道路场景，将2020年的测试区域选在了北京亦庄。

亦庄测试区是当前国内开放的最大规模的L4级别自动驾驶路网，覆盖了复杂城市道路多种典型场景，包含工业区、生活区、商超等多种城市功能区域，道路场景涵盖快速路，主干路，次干路、支路和轻轨铁路等，路网里程322公里，涵盖110多条道路。

对比稻香湖测试区域，亦庄道路覆盖里程提升近20倍，站点数量提升50倍，机动车和人流平均密度提升2倍。

经过近一年的技术迭代，Apollo视觉感知能力稳步提升，如今两周岁的Apollo Lite具备了仅使用10颗摄像头应对中国复杂城市道路环境的自动驾驶能力。

与一年前相比，纯视觉配置的测试车辆规模提升3倍，累计L4闭环测试里程增加18倍，平均送达（无人为干预的点到点自动驾驶）成功率提升60%。

纯视觉感知方案有多难？

自动驾驶系统涉及的众多软硬件中，传感器决定了环境建模的方法和效果，对驾驶能力有直接的影响。近年来各家自动驾驶公司持续刷新无人车上路速度和演示难度，他们均采用高线数机械旋转式激光雷达充当无人车的眼睛，与之相比，打造一套纯视觉方案的难度有多高，技术含金量如何体现？

无人驾驶的大脑 – 车辆轨迹速度的决策规划计算离不开感知模块实时构建的三维环境，对障碍物位置、尺寸、速度和朝向等属性的准确性、时空稳定性都有极高的要求。激光雷达作为「主动」成像（Active sensing）传感器，与摄像头相比最大的优势在于其强大的三维测距能力，通过飞行时间（Time-of-Flight）原理能够在100毫秒内完成对其周边360°环境的实时建模，测距精度达厘米级。精准的三维信息为物体检测、跟踪、分类等任务带来了便利，大幅度简化了感知算法的设计实现。

与激光雷达不同，摄像头成像是“被动”式的（Passive sensing），感光元件仅接收物体表面反射的环境光，三维世界经投影变换（Projective transformation）被“压缩”到二维相平面上，成像过程中场景“深度”（景深）信息丢失了。

当算法再试图从二维图像中恢复目标物体原本在三维空间中所处的位置时，面对的是一个欠约束的“逆问题”（ill-posed inverse problem），其难度可直观理解为用2个方程式求解3个未知数。

由一张二维图像恢复场景中的三维信息（「2D-to-3D」）是计算机视觉学科诞生之初定义的经典问题之一，时至今日仍是视觉界热门研究方向，也是使用摄像头代替激光雷达为无人驾驶提供感知结果所面临的核心技术挑战。

进入技术分享前，先看一段一镜到底的日常Apollo Lite亦庄路测视频。视频中测试区域处于亦庄中心繁华路段，包含两条路线，累计自动驾驶行驶时长接近60分钟，全程无接管。

从视频中可以看出，主车以40公里/小时左右的速度行驶，宽阔道路行驶时速度可提升至55公里/小时以上（亦庄道路限速为60公里/小时）。行驶过程中，主车与其他车辆，行人，自行车和电动车等道路参与者交互频繁，在成功处理切车、变道、过路口、掉头、等城市道路基础交通场景之外，车辆也展示了出色的通行能力和与道路参与者的交互能力，视频中呈现了其在路桩摆放密集的狭窄路段、施工区域以及双向单车道上的通行能力，车辆能够合理避让车流中横穿道路的行人和在车流中穿梭的摩托车和电动车。可视化来自车端实时感知结果，视频内容未经任何剪辑加工，力求客观真实的呈现完整测试过程。

03 Apollo Lite视觉感知技术揭秘

百度在近一年视觉感知攻坚过程中积累了丰富的实践经验并沉淀了有效的方法论，总结下来，三个关键技术层面的深耕突破成就了Apollo Lite驾驶能力迅速提升。

2D-to-3D难题

近年来，视觉目标检测任务伴随深度学习技术的进步取得了突飞猛进的发展。今天，经对人工标注数据进行监督学习，在图像上将目标物体（如车辆、行人、自行车等）2D框选出来已经不是视觉感知的头部难题，单纯2D框检测无法支持3D空间中的车辆规划控制，打造一套纯视觉感知系统，解决2D-to-3D问题首当其冲。

传统算法计算2D检测框的框底中心后通过道路平面假设和几何推理物体深度信息，这类方法简单轻量，但对2D框检测完整性和道路的坡度曲率等有较强的依赖假设，对遮挡和车辆颠簸比较敏感，算法欠缺鲁棒性，不足以应对复杂城市道路上的3D检测任务。Apollo Lite延续「模型学习+几何推理」框架同时对方法细节进行了大量打磨升级。

△传统基于地平面假设和相似关系计算2D-to-3D的方法

模型学习 – 数据和学习层面，利用激光雷达的点云数据将2D标注框和3D检测框关联，在标注阶段为每个2D包围框赋予了物理世界中的距离、尺寸、朝向、遮挡状态/比例等信息。

通过从安装相同摄像头（Camera configuration）并配备高线数激光雷达的百度L4自动驾驶车队获取海量时空对齐的「图像+点云」数据，训练阶段DNN（Deep neural networks）网络模型从图像appearance信息做障碍物端到端的三维属性预测，模型端完成从仅预测2D结果到学习2D+3D信息的升级，将传统“几何推理”后处理模块的任务大程度向模型端前置，“深度学习+数据驱动”为提升预测效果提供了便捷有效的路径和更高的天花板。

在添加模型端3D预测能力外，为给后续几何约束阶段提供丰富的图像线索，针对不同位置/朝向相机的安装观测特性，模型从学习障碍物矩形包围框拓展到预测更多维度更细粒度的特征，如车轮和车底接地轮廓线。

几何推理– 将模型输出的图像视觉特征作为观测值，障碍物空间位置朝向和尺寸作为未知参数，基于相机姿态和经典投影几何（Projective geometry）可计算3D到2D的投影。

理想条件下3D元素投影到相机的坐标和2D特征观测应该重合，由于3D信息预测误差的存在，模型输出3D投影和2D图像观测会存在一定偏差，几何推理的作用是通过场景先验和视觉几何原理对模型输出的障碍物3D初值进行优化，以此得到2D-to-3D的精确结果。

投影计算方程依赖对相机的姿态进行实时估计，理想情况假设相机水平安装，视线与路面平行，俯仰角接近为0°。车辆行驶中，受地面坡度起伏影响，相机相对地面的姿态不断变化，精准估计车辆运动中相机俯仰角是求解3D-to-2D投影的必要条件，我们称这个步骤在线标定。

Apollo Lite在线标定算法并不依赖高精地图，通过学习道路上线状特征如车道线和马路边沿，拟合出多条空间中的平行线在图像投影上的交点 — 消失点（Vanishing point），基于透视几何原理，可精确估计车辆行驶中相机俯仰角的实时变化的情况。

△基于车道线和视觉几何的消失点估计

锁定相机姿态后，障碍物尺寸是影响3D距离估计的另一关键因素。透视投影过程中可解释成像结果的 “距离x尺寸” 组合并不唯一，因遮挡和图像截断存在，从局部2D框学习障碍物尺寸的难度较大，Apollo Lite转而从「分类」视角寻求突破，物理世界中车辆种类（轿车，SUV，公交、卡车……）和其对应物理尺寸是可枚举的，通过归纳构建维护了一个种类丰富的车辆 “类型x尺寸” 模板库，模型学习的类型和尺寸信息结合模板库搜索为障碍物尺寸初值提供了有效约束。

△Apollo-lite细分类（fine-grained）车辆模板库

经过精细化打磨的2D-to-3D算法显著提升了Apollo Lite在复杂城市道路下的自动驾驶能力和乘坐体验，因“3D位置估计不准”衍生的驾驶策略缺陷如碰撞风险、急刹等事件发生频率大幅降低，与之相关的接管频次和急刹频次指标分别下降90%和80%，200m内车辆距离估计平均相对距离误差低于4.5%，行人与非机动车平均相对距离误差低于5%。

场景语义理解

解决2D-to-3D问题夯实了感知「看见」和「看准」的基础能力，复杂城市道路对系统「看懂」场景的能力提出了更进一步的要求，根据转向灯和刹车灯状态预测前车行为，通过锥筒摆放判断道路施工并提前绕行，在红绿灯被前方大车遮挡时根据周边车辆行为判断信号灯颜色状态等都属读懂场景的能力，视觉感知系统从像素中挖掘图像内蕴含的深层信息对提升驾驶智能性和通过性至关重要。

下面重点以交通信号灯识别任务为例，介绍Apollo Lite为应对复杂城市路况所做的部分感知技术升级。

动态语义识别 – 红绿灯检测依赖高精地图为路网内每个灯提供静态语义标注信息（如3D位置与尺寸，方向控制，车道的绑定关系等），重地图先验的模式变相降低了线上感知算法难度，但难以应对信号灯故障和高频的设备维护和道路变更。

Apollo Lite为此扩充了红绿灯动态语义识别能力，在不依赖地图前提下，一方面支持检测场景中出现的各类临时红绿灯，输出2D灯杆/灯框、距离、灯头颜色等属性，另一方面，扩充了语义理解的维度，在此前单一单帧灯色识别基础上把时序灯色变化过程蕴含的语义考虑进来，新增加倒计时、转向灯、灯色闪烁模式、故障灯语义等场景理解能力，不依赖地图实时更新亦能第一时间适应道路上的变更，为决策规划提供信号灯全语义输出。

△红绿灯动态语义识别(移动红绿灯，多语义灯，故障灯等)

可通行性推理 – 行驶在复杂城市道路中，交通信号灯在相机中全程可见难以获得保证，遮挡、逆光、雨雾模糊等情况下要求感知系统具备人类司机的推理逻辑，为此Apollo Lite感知补充了信号灯推理功能。

△红绿灯通行性推理场景(动静态遮挡，雾天/雨天/夜晚/背景干扰问题等)

首先，增加算法对自身感知结果置信度的精准评估能力，在观测量不完全或者摄像头成像不理想情况下，切换到推理模式。该模式下算法结合车身周边障碍物运动信息提取车流轨迹，配合对路口其它高置信可见灯的状态和语义分析，通过融合多路信息学习路口可通行性，预测灯色，有效保证了在观测数据不完整情况下信号灯颜色仍能被正确识别。

得益于以上场景语义解读能力的升级，Apollo Lite在城市道路的通行能力获得进一步提高，单位测试里程内，因信号灯被遮挡导致的主车急刹和不合理停滞等问题减少近3倍，因信号灯感知错误造成的路口通过失败问题减少近10倍。

数据驱动的迭代模式

数据闭环自动化是近年业内高频提及的概念，“数据驱动算法”、“自动化解决问题”、“跨量级降低L4成本”等传播数据即能力的理念流传甚广，行业对数据的预期水涨船高。

是否拥有了海量数据就等同于能自动迈进完全无人驾驶？一个靠数据驱动的系统如何打造？抛开技术理念与愿景，下面从「数据实践」和「数据组织能力建设」的角度跟读者分享百度在迈向「数据转化成驾驶能力」道路上的经验认知。

回顾百度7年自动驾驶技术发展历程，我们将研发迭代模式定义成三阶段，每个阶段对应的场景，对人才结构和组织能力的需求不尽相同。

△研发模式迭代定义三阶段，从基于规则和传统机器学习方法逐步向数据驱动演进

阶段Ⅰ – 此时数据基础设施建设相对薄弱，系统内Deep Learning化模块/功能占比较低，研发主力是已在某领域经过长期系统化训练的算法专家，他们用计算机语言将掌握的专业知识转化为功能性确定的代码，我们内部称这类初期算法「Rule-based」和「Traditional Machine Learning」方法。

“Rule”中包含人为设定的规则和对物理世界的经验假设，以车道线检测任务为例，经典计算机视觉算法能够不依赖标注数据，仅使用梯度计算，边缘检测算子和曲线拟合等经典技术完成车道线提取。

Rule-based方法优势是不依赖数据的积累标注，过拟合有限场景比较有效，算法从研发到上路速度快，适用于prototype演示阶段的研发迭代。

另一方面，规则假设引入大量人工参数和判断条件，不利于业务需求增加测试规模扩大后的技术泛化以及场景拓展。

Traditional Machine Learning方法如SVM和Random Forest等开始利用数据解决问题，这类方法对特征设计依赖强，研发人员需要具备对数据特征较强的直觉和洞察力。

此外，它们的浅层模型结构对数据的消化能力有限，大数据在任务上存在过拟合，并不能很好的解决复杂的自动驾驶问题。

阶段ⅠI – 这一阶段围绕数据所做的基础设施建设趋于完善，数据采集流程和标注规则明确，配套的数据标注工具和标注分发体系使用稳定，数据质量以及数据获取效率相比Ⅰ阶段有质的提升。

此时研发人员有意识的用深度学习思想重新审视线上Rule-based和Traditional Machine Learning方法，积极尝试用神经网络（DNN）对旧方法进行改造替换。

数据获取的便捷让技术人员在面对新需求新任务时更多转向深度学习,过去系统内基于规则和传统学习方法实现的算法逐渐被深度学习挤压取代，特别是人工设计的后处理步骤大幅减少，策略和参数被「固化」，规避依靠频繁删减策略和调参解决问题。

△搭建规模化机器学习系统 – 高效率消化规模化测试中产生的海量数据

人才结构方面，研发主力为有经验的深度学习专家，此阶段研发人员的核心工作可归纳为两方面：

1）根据任务制定标注规则，提出数据采集标注需求，完成网络结构选择或设计，训练并部署复杂的深度学习模型；

2）无人驾驶对计算实时性有着严苛要求，车载计算资源有限，鉴于DNN计算量大，算法上线前需要压缩模型以减小对于计算时间和空间的消耗。

数据在第二阶段起到更重要的作用，增加训练数据量可有效提升模型效果。数据获取方式以定制化采集任务为主，重视数据规模和广度，如视觉感知数据可按地理位置、时间、天气等若干维度组合采样，保证训练数据对应用场景的全面均匀覆盖。

阶段Ⅲ – 经过长时间规模化道路测试，各类任务对应的模型网络结构相对固定，模型预测头部问题收敛到特定的场景。

此时，技术团队工作的重心转入对数据链路的精细化管理、对数据多样性和数据分布合理性的深耕以及对数据平台化能力的建设上。这一阶段要求研发人员的思维模式发生转变，从「设计算法解决问题」过渡至「用数据解决问题」。

思维工作模式的变化带来对组织能力更高的要求。促成数据到模型能力的高效流转首先需要搭建一套中心化框架平台，将工程团队擅长的自动化、分布式和高并发与算法团队长期沉淀的经验与代码相结合，从车端数据logging系统设计，到有效数据的挖掘清洗和离线标注，最后到模型的训练迭代和评测部署，构成一个闭环结构。

借助平台，算法人员的精力最大化投入到数据分析和标注策略设计中，新团队成员通过使用平台提供的功能接口也能更高效的产出模型，减少学习成本，人员的单体经验差异被抹平，数据组织能力上升到一个新高度。

精准数据挖掘– 进入第三阶段，单纯追求训练数据规模已无法有效提升网络性能，Apollo Lite视觉感知10路摄像头每秒共产生大于1GB的图像数据，若不加选择的收集使用，不仅存储标注成本巨大，从模型迭代效率考虑同样不现实。如果把数据比喻成深度学习的原矿石，该阶段我们需要设计一套「炼金术」从中提炼出对模型迭代最有效的信息。

Apollo Lite提炼数据背后思想简单有效 – 「Cross checking」，真实物理世界是连续的，物体不会凭空出现或消失，不同位置类型传感器间的观测应是「自洽」的。

当感知系统的观测违背基本物理假设时，大概率对应这一时刻的模型输出缺陷。基于Cross checking原理，Apollo Lite视觉感知系统内设计实现了多层次挖掘策略，从单帧到连续帧时序，从单摄像头到多相机融合，从感知结果到地图标注和安全员行为校验，每一环节都能够通过观测量间的自洽性判断精准定位线上模型的潜在缺陷，发掘长尾数据，通过logging标签自动映射数据和对应的模型任务。

今天，参与Apollo Lite关键感知模型迭代的新增数据中超过80%来自线上数据挖掘，是一年前的3倍。Cross checking本身是一个在图像区域内定位问题的过程，挖掘数据配套的标注策略不需面向全帧，从而更轻量经济，带来近6倍标注效率提升。

高效规模化机器学习– 路测产生的海量数据配合精准挖掘与高度Learning化的感知框架是Apollo Lite持续进化的基础。Apollo Lite视觉系统由31个深度神经网络构成，能够实时处理10路高清视频数据，并输出超过200组感知信息。

为了在车载计算单元的有限算力上完成如此庞大的视觉信息处理任务，Apollo Lite充分发掘子任务之间的相关性，设计出层次化的特征共享结构，采用共享子网络的方式来降低计算量。

△Apollo Lite视觉神经网络系统

共享特征网络在提升推理效率的同时，也增加了感知任务之间的耦合度。而不同感知任务在数据规模、输入输出形式、优化目标等方面都存在不同程度的差异，这给离线训练带来了巨大挑战。

为解决异构数据的训练问题，Apollo Lite搭建了一套分布式多任务模型训练框架，自适应采样不同任务的数据送入训练，激活其对应的网络子集并计算损失，然后统一更新共享的网络参数。

△Apollo Lite多任务训练框架

依托强大的机器学习基础设施以及持续、精准的数据，Apollo Lite关键模型迭代效率相比19年初提升了近4倍，千万量级训练数据上的多任务模型同步更新能够在1周之内完成。

回到本节开篇的问题 – 是否拥有了海量数据就等同于自动迈进完全无人驾驶？

我们并不想急于下结论，毕竟数据的想象空间巨大有待深入挖掘，但可以肯定并和读者分享的是实践求真的道路并非一些技术文案描写的那样一蹴而就。

数据闭环对业务产生的价值是技术持续跟踪的指标。以数据挖掘环节为例，除关注新模型在此前挖掘积累的bad case上的累计修复率外，测试车辆在挖掘规则固定前提下的挖掘量也是考核闭环效果的重要参考。我们希望看到模型迭代带动修复率攀升，同时规模化路测阶段同类问题的复现率持续走低。

通过指标跟踪分析，能够看到数据闭环价值在一部分感知任务上呈现了明显的增长趋势。但也存在一部分任务进入了依靠单纯灌入数据已无法维持收益增长的阶段，此时研发人员需重新审视数据链条上的环节，从阶段Ⅲ退回到阶段Ⅱ，回归到对标注规则的研究或新的网络结构设计这些偏基础的工作中。

相信如何有效获取数据并将之转化成可被感知的驾驶能力会是伴随Apollo Lite成长的长期技术问题，需要技术团队沉下心来通过实践逐步打通这条数据通路。

04 结尾与展望

再先进的技术长时间脱离产品和用户也是孤立的，在领航辅助驾驶产品竞争白热化的今天，百度将Apollo Lite视觉感知技术从L4应用降维至L2+级领航辅助驾驶，打造覆盖“泊车域+行车域”的城市全场景智能驾驶一体化解决方案 – Apollo智驾产品ANP（Apollo Navigation Pilot）。

Apollo Lite两轻一强的技术特点可以极好的融入产品，「轻传感器、轻算力」面对规模量产无惧成本压力，同时「强感知能力」能够助力ANP应对城市道路驾驶中的各类复杂场景。

自动驾驶是公认的智能汽车决胜点，正引领新一轮体验升级。

在ANP广州发布之后，国内也有媒体评价说，百度Apollo的纯视觉自动驾驶产品发布，对特斯拉是一次“奇袭”，因为Apollo生态开放的特性，可以更快实现特斯拉一样的智能驾驶能力，类似于Apollo+车厂的安卓生态，会跟特斯拉FSD封闭的iOS生态形成抗衡。

虽然这样的类比可以让更多人形象的看到业态，但坦率的说，Apollo Lite更主要的是提供了特斯拉FSD和Mobileye之外的国产选择，或许“三足鼎立”更合适。

虽然今天的Apollo Lite只有两岁，但它无疑已经站在了潮头浪尖。

— 完 —

量子位 QbitAI · 头条号

关注我们，第一时间获知前沿科技动态签约

Apollo 无人车无人驾驶激光雷达百度纯视觉自动驾驶

雷刚

Apollo Lite两周年：纯视觉L4级无人驾驶技术挑战复杂城市场景

01 为什么是视觉方案？

激光雷达 – 拥抱生态

选择自由 – 拿到视觉船票

冗余 – 做正确的事

02 Apollo Lite两周年画像

纯视觉感知方案有多难？

03 Apollo Lite视觉感知技术揭秘

2D-to-3D难题

△传统基于地平面假设和相似关系计算2D-to-3D的方法

△基于车道线和视觉几何的消失点估计

场景语义理解

△红绿灯动态语义识别(移动红绿灯，多语义灯，故障灯等)

△红绿灯通行性推理场景(动静态遮挡，雾天/雨天/夜晚/背景干扰问题等)

数据驱动的迭代模式

△研发模式迭代定义三阶段，从基于规则和传统机器学习方法逐步向数据驱动演进

△搭建规模化机器学习系统 – 高效率消化规模化测试中产生的海量数据

△Apollo Lite视觉神经网络系统

△Apollo Lite多任务训练框架

04 结尾与展望

相关阅读

Waymo自动驾驶汽车扎堆冲进死胡同，一天50+辆，附近居民蚌埠住了

毫末智行量产方案解锁北京！城区开放道路不接管穿行，导航变道避让行人应对自如，明年推送

阿里云推出自动驾驶模型训练推理加速框架，训练时间可缩短50%

蔚来总里程100亿公里，AI开了8.2亿

图森CEO突遭开除，股价腰斩近50%，当事人侯晓迪发文回应

110亿估值，蔚来系激光雷达公司冲刺IPO，创始人源自百度自动驾驶

热门文章

全新统一流式架构，Vivix灵动时刻正式发布首个实时互动模型

美国具身也没成熟！PI：中国公司何必总当“中国版XX”｜RSS 2026

半价干翻Fable 5？Opus 5实测炸场，网友：差点从椅子上摔下来

北京说Agent已经能造世界，杭州却说它是刚发明的电灯泡

具身智能的「ChatGPT时刻」还没到，科沃斯先把机器人拆开了