当前位置: 首页 > 工具软件 > Daisy > 使用案例 >

论文《DAISY:一种适用于宽基线立体声的高效密集描述符》学习

章远航
2023-12-01

《DAISY: An Efficient Dense Descriptor Appliedto Wide-baseline Stereo》
(2010 SCI 一区)

摘要: 在本文中,我们引入了一个局部图像描述符DAISY,它对密集计算非常有效。我们还提出了一个基于EM的算法,利用这个描述子从宽基线图像对计算密集的深度和遮挡图。这在宽基线情况下比窄基线立体声中常用的基于像素和相关的算法产生更好的结果。此外,使用一个描述符使我们的算法在许多光度和几何变换中具有鲁棒性。我们的描述符受到了诸如SIFT和GLOH之类的早期描述符的启发,但是对于我们的目的来说,它的计算速度要快得多。与SURF不同的是,SURF也可以在每个像素上有效地计算,它不会引入在密集使用时降低匹配性能的工件。重要的是要注意,我们的方法是第一个算法,试图从wide-baseline估计密集深度地图图像对,我们表明,它是一个很好的人,在许多实验深度估计的准确性,闭塞检测和比较它与其他描述符在激光扫描地面实况场景。我们还用不同的光度和几何变换在各种室内和室外场景中测试了我们的方法,我们的实验证明我们的方法是有效的。

索引术语 -图像处理和计算机视觉,稠密深度地图估计,局部描述符。

1、简介

尽管稠密的短基线立体匹配已经被很好地理解了[9],[25],但是它的宽基线匹配由于大的透视失真和增加的遮挡区域而更具挑战性。尽管如此,它还是值得一提的,因为它可以产生更精确的深度估计,同时需要更少的图像来重建一个完整的场景。此外,可能有必要从两个相隔甚远的摄像头计算深度,例如在不可能同时安装摄像头的监视应用中。大相关窗口不适用于宽基线匹配,因为它们对透视畸变不够健壮,而且往往跨越不同深度的区域或部分遮挡。

因此,相对于非常小的窗口[26],大多数研究人员更喜欢对[6]、[16]、[24]或相关进行简单的像素差。然后,它们依赖于优化技术,如图割[16]或基于PDE的扩散算子[27],以增强空间一致性。使用小图像块的缺点是,只有在图像纹理质量足够的情况下才能获得可靠的图像信息。此外,匹配对光照变化和重复模式非常敏感。

另一种选择是进行密集的宽基线匹配,首先匹配几个特征点,对它们进行三角测量,然后局部校正图像。然而,这种方法可能并非没有问题。如果某些匹配是错误的并且没有被检测到,则会发生严重的重建错误。此外,如果不能将三角形中的场景视为局部平面,则三角形中的图像校正可能不够。

我们主张用局部区域描述符代替相关窗口,这使我们能够利用强大的全局优化方案,例如图切割来强制空间一致性。现有的本地区域描述符,如SIFT[19]或GLOH[21],已被设计成对透视和光照变化具有鲁棒性,并已被证明在稀疏宽基线匹配方面是成功的。然而,它们比简单的相关性需要更多的计算能力。因此,为了密集的宽基线匹配,到目前为止,局部区域描述符仅用于匹配少数种子点[33]或为重建[27]提供约束。

因此,我们引入了一个新的描述符,它保留了SIFT和GLOH的健壮性,并且可以在每个图像像素处快速计算。它的形状与[32]的形状密切相关,[32]的形状在稀疏匹配中是最优的,但在设计上并不是为了提高效率。我们使用描述符进行密集匹配和基于视图的合成,使用具有各种图像变换的立体对,或者使用基线太大的对进行基于标准相关性的技术,如图1、2、3和4所示。例如,在标准笔记本电脑上,使用我们的描述符对800x600图像的所有像素执行计算只需不到4秒,而使用SIFT则需要250秒。此外,它比SIFT、SURF、NCC和像素差分提供了更好的结果,这将通过将得到的深度图与激光扫描数据进行比较来显示。

具体地说,SIFT和GLOH的优势很大程度上归功于梯度方向直方图的使用,这些直方图对失真相对稳健。最新的SURF描述符[4]通过使用积分图像来计算直方图bin来近似它们。该方法在计算每个像素处的描述符值时是有效的,但是它取消了SIFT的空间加权方案。所有的梯度对它们各自的容器的贡献是相等的,当用于密集计算时,这会导致破坏性的工件。本文的核心思想是通过使用高斯核将方向图与二进制值进行卷积,可以在不损失性能的情况下提高计算效率。这使得我们能够以可接受的计算成本匹配相对较大的补丁31x31,并相对于使用较小补丁的技术提高未包含区域的健壮性。使用大面积需要适当地处理遮挡边界,并且我们通过在每个位置使用不同的掩模来解决这个问题,并通过使用期望最大化(EM)框架来选择最佳掩模。这是受到[13]、[14]、[15]早期作品的启发,其中使用了多个或自适应相关窗口。

在讨论了第二节中的相关工作之后,我们在第三节中介绍了新的局部描述符,并给出了一种有效的计算方法。在第4节中,我们详细介绍了基于EM的遮挡处理框架。最后,在第5节中,我们给出了结果,并将我们的描述符与SIFT、SURF、NCC和像素差分进行了比较。

6、结论

在这篇论文中,我们介绍了DAISY,一个新的局部描述符,它的灵感来自于早期的类似于SIFT和GLOH的描述符,但是为了密集匹配的目的,它的计算效率更高。速度的提高来自于用卷积的和替换早期描述符使用的加权和,卷积的和可以非常快速地计算,并且来自于使用循环对称的加权核。实验表明,虽然像素差分或相关对短基线立体视觉有好处,但宽基线需要更先进的测量方法进行比较。我们向DAISY证明了这一点。

即使使用小图像进行立体重建,我们的方法也能取得很好的效果。这意味着我们可以使用我们的算法来处理分辨率通常低于静态图像的视频流。在处理倾斜曲面和缩短时,可以通过显式地考虑三维曲面方向并相应地扭曲DAISY网格来进一步改进这些结果,这不会涉及任何显著的计算开销。这自然适用于扭曲立体方法[23],在这种方法中,我们将从未旋转的检测器开始计算第一个曲面估计,使用相应的方向扭曲检测器,然后迭代。

计算我们的描述符主要涉及执行高斯卷积,这是服从硬件输出或GPU实现。这可能会导致实时,甚至更快地计算所有图像像素的描述符。这可能具有超越立体重建的意义,因为图像描述符的密集计算正迅速成为其他领域的一项重要技术,如对象识别[7]、[18]。为了鼓励这种开发,可以从我们的网页[30]下载DAISY的c++和MATLAB实现。

 类似资料: