这封信提出了一个在点云上进行3D实例分割的框架。使用3D卷积神经网络作为主干,同时生成语义预测和实例嵌入。除了嵌入信息,点云还提供反映点之间关系的3D几何信息。考虑到这两种类型的信息,提出了结构感知损失函数来实现每个3D实例的判别嵌入。为了消除由3D体素引起的量化误差,提出了基于注意力的k近邻(kNN)。与平均策略不同,它为不同的邻居学习不同的权重来聚合和更新实例嵌入。我们的网络可以以端到端的方式进行训练。实验表明,我们的方法在两个具有挑战性的数据集上实现了最先进的性能,例如实例分割。
Index Terms—Semantic scene understanding, RGB-Dperception.
随着RGB-D相机等3D传感器的发展,3D场景理解在增强现实、自动驾驶和机器人技术中变得越来越重要。与2D场景理解相比,3D理解由于数据稀疏和计算成本高而更具挑战性。然而,3D数据包含丰富的几何信息,这对语义理解很有用,而2D图像不直接反映这些信息。3D理解包括许多任务。与3D语义分割和目标检测相比,3D实例分割更具挑战性,因为它同时提供语义类别和实例识别。在这封信中,我们专注于3D实例分割。
2D图像中的实例分割取得了很好的效果。大多数二维实例分割方法都是基于proposal的,它首先应用proposal生成器来获得初始区域proposal[1]-[6],然后使用二元分割网络来获得实例掩码。由于准确的区域proposal,这种想法[7]取得了理想的结果。然而,这些方法有一些缺点。首先,它们是目标检测和语义分割的结合。训练过程通常是两阶段,比单阶段实例分割方法更复杂。其次