用几何图形来实时构建高精地图,真香!
就是雨天也不在话下~
我们都知道,实时高精地图,能为自动驾驶汽车提供及时、紧凑且语义丰富的环境信息。但如何提高它的稳健性、有效应对各种复杂场景,成为一大挑战。
来自北理、港中文、腾讯AI Lab团队引入一种新表征学习方法——GeMap,端到端学习地图实例中的几何形状和关系。
结果在各种遮挡、路口转弯的场景也能表现平稳,并实现SOTA。该论文被ECCV2024收录。
来看看这到底是如何做到的?
高精地图的几何表示
在线矢量化高清 (HD) 地图的构建对于下游预测和规划至关重要。
然而,城市道路系统中实例的形状和关系仍未得到充分探索,例如矩形、平行、垂直或特定车道宽度。
此外,当车辆前进或转弯时,这些形状和关系属性将保持不变。以前的方法基于绝对坐标来格式化实例,在这种情况下,绝对坐标对平移和旋转很敏感。
团队提出了GeMap(几何地图),它以端到端的方式学习地图实例的欧几里得形状和关系,超越了基本感知。
来看看具体框架。
首先,透视图 (PV) 图像被转换为鸟瞰图 (BEV) 特征,然后几何解耦解码器输出矢量化高清地图。
在解码器的每个块中,查询首先通过欧几里得形状和关系注意力进行处理,重点关注几何相关性。
最后,通过形状和关系约束在 G-Representations 中增强预测。
几何表示。
团队引入了捕捉单个地图实例的形状(欧几里得形状线索)和不同实例之间的关系(欧几里得关系线索)的几何表示。
欧几里得形状线索。位移向量的长度和相邻向量之间的角度构成形状线索,用于计算形状损失。例如,矩形与90度角和两个相等的边相关。
欧几里得关系线索。点对之间的距离和位移矢量对之间的角度表示关系线索。关系线索与欧几里得关系几何有更表面的联系,例如平行或垂直。
几何解耦注意力。
一种被MapTR,PivotNet等采用的架构将地图元素上的每一个点对应到Transformer的一个查询。这一架构的问题在于:对两大类的几何性质(关系和形状)不加区分。
在自注意力中,所有查询(也就是“点”)之间都平等地相互作用。然而,地图元素的形状对应着一组一组的查询。这些组之间的交互,在感知元素形状时就成为了累赘。反之在感知元素之间关联的时候,形状亦成为了冗余因素。这意味着将形状、关联的感知解耦,可能带来更好的结果。
他们提出了几何解耦注意力(GDA)。GDA 将 vanilla 自注意力模块解耦为欧几里得形状注意力(捕获实例内几何)和欧几里得关系注意力(捕获实例间几何)。
实验结果
他们在nuScenes和Argoverse2两个数据集上进行了大量实验。
两者都是常用的大规模自动驾驶数据集,且提供了地图标注。
主要结果。
在nuScenes上,他们进行了三组实验。
我们首先使用了一种比较纯粹的目标函数组合,只包括几何损失和其它必要的损失(如点到点距离、边的方向、分类),这一组合是为了体现我们提出的几何性质的重要价值,而不过多追求SOTA的结果。
可以看到,在这种情况下,相比于MapTR,我们的方法能在mAP提升了4%。为了探索GeMap的极限,团队还加上了一些辅助目标,包括分割和深度估计,在这种情况下实现了SOTA(mAP提升0.7%)。
值得注意的是,取得这样的提升并不需要牺牲太多的推理速度。
最后,我们还尝试了引入额外的LiDAR模态输入,在额外模态输入的加持下,GeMap的性能也能取得进一步提升。
同样,在Argoverse2数据集上也取得了非常突出的效果。
消融实验。
在nuScenes上进一步进行的消融实验证明了几何损失和几何解耦注意力的价值。
有趣的是,正如团队所预料的,直接使用几何损失反而会带来模型表现的下降。他们认为这是因为结构上的对形状和关联处理的耦合,导致模型很难优化几何表示;而在与几何解耦注意力结合之后,几何损失就发挥了应有的作用。
更多结果。
此外,我们还在nuScenes上进行了可视化分析。可视化的结果表明,GeMap除了具有对旋转和平移的鲁棒性,在处理遮挡问题上也表现出了一定优势,如下图。图中有挑战性的地图元素使用橘色方框标出。
对于对遮挡的鲁棒性,在雨天的实验结果中也得到了定量验证。
(因为雨水对相机有天然的遮挡)
这可以解释为模型学到了几何性质,因此即使有遮挡,也能更好地猜出地图元素。
例如,模型理解了车道线的形状,那么只需要”看到“一部分,就能够估计剩下的部分;模型理解了车道线之间的平行关系,或者车道的宽度特点,因此哪怕其中一条被遮挡,也能根据平行、宽度因素猜测被遮挡的部分。
在自动驾驶系统中,几何性质实际上广泛存在。
例如,在3D目标检测中,车辆的朝向在同车道上通常具有一致性;在运动预测中,轨迹本身具有形状上的先验;在3D车道线检测中具有车道宽度先验。
GeMap的建模几何性质的思路可以恰当地扩展到上述更多的自动驾驶任务中,从几何角度增强整个自动驾驶系统的性能。
不过,GeMap本身的感知距离相对有限,可以对此进行针对性的改进以增强长距离的感知。
比较常见的思路包括增加时序融合模块;将相机、激光雷达、毫米波雷达等多种传感器输入有机地融合,实现感知距离上的优势互补。
论文链接:https://arxiv.org/abs/2312.03341
项目主页:https://invictus717.github.io/GeMap/
GitHub源代码:https://github.com/cnzzx/GeMap