CSIG 3DV专委会 [成果速览] 2021年第9期(总第9期)

     1.论文动机

立体匹配旨在从一对图像中估计视差,进而通过对极几何得到相应的深度信息。它在多项下游任务中均有应用,如三维重建、增强现实、自动驾驶、机器人导航等。尽管对立体匹配已经研究了多年,但许多方法仍然面临着时间和存储消耗随分辨率的提高而过度增长的问题。这个问题限制了现有方法处理高分辨率图像的能力,也限制了立体匹配方法在存储/速度受限等情况下的应用。今天向大家介绍一篇北京理工大学计算机学院媒体计算与智能系统实验室贾云得、武玉伟老师团队发表在CVPR 2021上的论文,即用于立体匹配的分解模型。

  1. 论文题目

[CVPR 2021] A Decomposition Model for Stereo Matching

姚承唐,贾云得,邸慧军,李朋祥,武玉伟

(北京理工大学)

论文链接:https://arxiv.org/pdf/2104.07516.pdf

代码开源:https://github.com/YaoChengTang/DecNet

  1. 创新点

本文提出了一种用于立体匹配的分解模型。与许多最新方法在计算代价上的过度增长相比,我们的模型将增长率降低了几个数量级。我们模型的设计灵感来自以下两个观察:

(1) 我们不需要在最高分辨率下估计所有像素的视差,例如墙壁和地板上的视差。只要在下采样过程中内容没有明显的丢失,我们就可以在低分辨率下有效地估计大部分区域的视差,然后在高分辨率下进行精细化恢复处理。

(2) 我们只需要考虑在下采样过程中丢失的一些图像细节上的视差估计。幸运的是,这些丢失的细节是稀疏的,并且它们所对应的立体匹配也是稀疏的(即左图像中丢失的细节大部分只匹配右图像中丢失的细节)。与稠密匹配相比,稀疏匹配意味着更少的时间和存储开销。

本文的贡献有

  • 本文提出了一种用于立体匹配的分解模型,该模型通过将原始立体匹配分解为低分辨率上的稠密匹配和高分辨率上的一系列稀疏匹配,大大降低了原始立体匹配的巨大成本。
  • 我们在本文分析了立体匹配的复杂性,证明了原始稠密立体匹配的复杂度随输入分辨率的增加呈立方增长,而我们模型中的稀疏匹配的复杂度仅呈对数增长。

图1: 在一个11GB显存的1080 Ti GPU上,最新方法的测试时间消耗随着分辨率的提高而急剧增加。某些曲线的停止增长是因为相应的方法无法在该GPU上以预期的分辨率运行。与GANet相比,我们的模型速度变快了100倍。与PSMNet相比,我们的模型实现了将近15倍的速度提升。与DeepPruner相比,我们的模型实现了几乎两倍的运行提速和更低的显存消耗。

  1. 相关工作

对立体匹配的研究已经持续了很多年。在早期阶段,研究者主要集中在双目视觉的分析及其计算框架的构建[1]。随后,研究人员提出了一系列传统立体匹配方法,包括局部算法[2],全局算法[3]和半全局算法[4]。最近,基于深度学习的方法[5]在立体匹配中发挥了非常重要的作用。虽然传统方法和深度学习方法都取得了很好的效果,但是随着分辨率的提高,它们仍然存在计算量过度增长的问题。

在传统方法中,为了解决这一问题,研究者提出了许多缩小搜索空间的方法,主要分为改进稠密匹配中的运算[6]和采用由稀疏到稠密(sparse-to-dense)方法[7]这两类。

在深度学习方法中,研究人员试图从轻量化网络设计[8]、改进与代价立方体有关的计算[9]两个方面来解决计算代价增长过快的问题。

  1. 方法描述

5.1 多尺度立体匹配

立体匹配通常被建模为左视图和右视图间不同区域上的穷举搜索过程,并大多带有多尺度分析以减少不适定(ill-posed)区域引起的歧义。为了更好地建模此过程,我们将图像描述为$\{A_{l}\}_{l=0}^{l=L}$,其中$A_{l}$表示在各个尺度/层级$l$上的所有区域。以此为基础,上述穷举搜索过程可被建模为

其中,$\acute{A}_{l}$ and $\grave{A}_{l}$分别代表左视图和右视图上的区域。$D_{l}$是在层级$l$处估计的稠密视差图,或者是将代价立方体用作下一层级$l+1$的输入。$\mathcal{F}(\cdot)$表示稠密匹配操作。$\mathcal{F}(\cdot, D_{l})$表示基于$D_l$的稠密匹配操作。 一些方法还包含$\phi(\cdot)$,它表示不同层级的稠密视差图的融合。

给定分辨率大小为$\mathrm{H}_{l} \times \mathrm{W}_{l}$、视差空间大小为$\mathrm{D}_{l}$的$A_{l}$,我们将层级$l$上的$\mathcal{F}(\cdot)$的复杂度$\mathrm{O}$定义为搜索空间的大小:

由此,我们可以得到如下理论(详情请见论文):

理论1 假设$s \in \{2,3,\cdots\}$是相邻层级之间的上采样比率大小,$1 < C \leq 8/7$是一个常数,$\mathcal{O}(\cdot)$表示上限,则穷举搜索过程的复杂度$\mathrm{O}$为

5.2 分解模型

我们将在下采样后会消失的高分辨率图像细节称为细粒度区域$\mathrm{FA}_{l}$,将可以在低分辨率上计算而不损失信息的区域称为粗粒度区域$\mathrm{CA}_{l}$。于是,层级$l$上的图像区域$A_{l}$可被分解为

由于粗粒度区域和细粒度区域上的立体匹配分别适合在低分辨率和高分辨率上进行,因此我们将原始立体匹配分解为如下形式:

其中$\widehat{\mathcal{F}}(\cdot)$表示稀疏匹配操作,$\hat{D}_{l}$是层级$l$上的稀疏视差图,而$\cup$代表视差融合,细粒度区域$\mathrm{FA}_{l}$由我们模型中的细节损失检测模块提取得到。

基于以上建模,我们可以得到如下理论(详情请见论文):

理论 2 假设$s \in \{2,3,\cdots\}$是相邻层级之间的上采样比率大小,$C$是一个恒定值,$\mathcal{O}(\cdot)$表示严格的上限 ,则分解模型的复杂度$\hat{\mathrm{O}}$为

5.3 实现

图2: 我们的模型概览。 给定一对图像,我们首先提取每一层级$l$的特征图。 然后,我们在最低分辨率$l=0$上执行稠密匹配,并在其他高分辨率$l \geq 1$上使用稀疏匹配。 对于得到的稠密和稀疏视差图,我们将它们逐步融合以恢复原始分辨率$l=L$上的稠密视差图。 融合过程由视差上采样、视差融合和视差优化组成。 $\unicode{x24E6}$是左右视图之间的映射操作。$\textstyle\unicode{x3280}$代表对相邻层级特征图之间的平方差计算。

如图2所示,我们首先使用U-Net结构网络获得每层$l$上的深度特征$F_{l}$。然后,我们在最低分辨率$l=0$上使用稠密匹配得到稠密视差图$D_{0}$,再在检测到的丢失细节的指导下,利用稀疏匹配得到稀疏视差图$\hat{D}_{l}$。随后,我们逐步融合$D_{l-1}$和$\hat{D}_{l}$得到稠密视差图$D{l}$,作为下一级的输入或模型的输出。

在稠密匹配中,我们遵循以前的方法构建了代价立方体并通过代价聚合进行优化。在细节丢失检测中,我们将$FA_{l}$建模为在低分辨中会消失的细节,并使用二值掩膜$M_{FA}$来表示丢失细节的位置。$M_{FA}$的学习过程以无监督的形式得到,相应的无监督损失函数$\mathcal{L}^{\rm{DLD}}_{l}$为

在稀疏匹配中,我们没有再采用固定大小的代价立方体进行计算,而是对得到的$FA_{l}$直接计算:

$\acute{F}_{l}$和$\grave{F}_{l}$分别是左视图和右视图的深度特征,$(h,w) \in \acute{FA}_{l}$ and $(h,w-d) \in \grave{FA}_{l}$。稀疏视差图的计算则为

在得到上层低分辨率的稠密视差图和当前层高分辨率的稀疏视差图后,我们先以内容感知的方法对低分辨率稠密视差图进行上采样,得到上采样的稠密视差图${D}’_{l}$,再通过回归生成一个遮挡可感知的软掩膜$M_l$,将视差融合$\cup$以软融合(soft fusion)的方式实现:

最后,再对得到的融合结果$\bar{D}_{l}$进行精细化处理,得到具有较高亚像素精度的当前层稠密视差图,作为下一级的输入或模型的输出。

  1. 实验结果

6.1 复杂度分析

如图1所示,大多数方法由于过于昂贵的显存消耗而无法处理高分辨率图像,而我们的方法仍然可以在分辨率为$5000 \times 3500$的图像上运行。随着分辨率的增加,大多数最新方法的时间开销也呈指数增长。与之不同的是,得益于对立体匹配的分解,我们模型的时间成本增长率非常低。

6.2 可视化分析

如图3所示,在相应层$l$上我们的方法可以检测到细小的对象,特别是在第一列和第三列的蓝色框中。如图3所示,大多数非鲁棒点,如遮挡区域,在软融合后被消除,尤其是在橙色框中。

图3: 细节损失检测结果和软掩模结果的可视化。第二列到最后一列中的白色区域表示遮挡。第三列和第四列中的红点表示丢失的细节,而最后两列中的红点表示学习到的软掩膜。

6.2 数据集上的结果比较

我们在SceneFlow、KITTI2015和Middlebury-v3三种数据集上做了比较。如表1、2、3所示,我们的方法取得了很好的速度提升和显存消耗减少,以及具有可比性的误差率(更多结果和分析请参见原论文)。

表1:SceneFlow数据集上的比较。$^*$表示以统一的设置,在我们的机器上用官方代码经Cuda同步后获得的结果。$EPE$是以像素为单位的平均绝对视差误差。%%EDITORCONTENT%%gt;3px$是其预测视差与其真实值偏离至少3个像素的像素数量。

表2:KITTI 2015数据集上的比较。D1统计误差不仅超过3像素还超过真实值5%大小的异常点百分比。(注:此处显示的测试时间不是在统一设置中测试的。为便于比较,请参考表1和图1。

表3:Middlebury-v3数据集上的比较(Q:1/4分辨率,H:1/2分辨率,F:全分辨率)。

参考文献

[1] Marr, David, and Tomaso Poggio. “A computational theory of human stereo vision.” Proceedings of the Royal Society of London. Series B. Biological Sciences 204.1156 (1979): 301-328.

[2] Birchfield, Stan, and Carlo Tomasi. “Depth discontinuities by pixel-to-pixel stereo.” International Journal of Computer Vision 35.3 (1999): 269-293.

[3] Boykov, Yuri, Olga Veksler, and Ramin Zabih. “Fast approximate energy minimization via graph cuts.” IEEE Transactions on pattern analysis and machine intelligence 23.11 (2001): 1222-1239.

[4] Hirschmuller, Heiko. “Stereo processing by semiglobal matching and mutual information.” IEEE Transactions on pattern analysis and machine intelligence 30.2 (2007): 328-341.

[5] Zbontar, Jure, and Yann LeCun. “Computing the stereo matching cost with a convolutional neural network.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.

[6] Min, Dongbo, Jiangbo Lu, and Minh N. Do. “A revisit to cost aggregation in stereo matching: How far can we reduce its computational redundancy?.” Proceedings of the IEEE International Conference on Computer Vision. 2011.

[7] Geiger, Andreas, Martin Roser, and Raquel Urtasun. “Efficient large-scale stereo matching.” Proceedings of the Asian Conference on Computer Vision. Springer, Berlin, Heidelberg, 2010.

[8] Yao, Yao, et al. “Recurrent mvsnet for high-resolution multi-view stereo depth inference.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[9] Duggal, Shivam, et al. “Deeppruner: Learning efficient stereo matching via differentiable patchmatch.” Proceedings of the IEEE International Conference on Computer Vision. 2019.

成果速览主要聚焦于近年内在3DV领域的高质量原创研究(包括但不局限于论文、竞赛成果、应用展示、研究报告等),旨在为3DV领域的学者提供学术交流平台,增进对相互工作的了解。欢迎大家推荐或自荐优秀研究成果,如您有意成果展示,请与CSIG 3DV秘书处联系。

秘书处联系方式(郭裕兰:yulan.guo@nudt.edu.cn,武玉伟:wuyuwei@bit.edu.cn,杨佳琪: jqyang@nwpu.edu.cn)