:TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

12
收稿日期: 修回日期: 基金项目:云南省重大科技专项计划项目(项目编号:202002AD080001) Supported by:Yunnan Provincial Major Science and Technology Special Plan Projects 中图法分类号:TP391.4 文献标识码:A 文章编号:1006-8961() - 融合注意力机制和多层 U-Net 的多视图立体重建 刘会杰柏正尧程威,李俊杰,许祝 云南大学信息学院,云南省昆明市 650500 目的 针对目前多视图立体(MVS)重建结果整体性不太理想的问题,本文对 MVS 3D 重建中的特征提取模 块和代价体正则化模块进行研究,提出了一种基于注意力机制的端到端深度学习架构,解决了重建效果整体性不太理想的 问题,同时完整性也得到提升。方法 首先从输入的源图像和参考图像中提取深度特征,在每一级特征提取模块中均加入 注意力层,以捕获深度推理任务的远程依赖关系;然后通过可微分单应性变换来构建参考视锥的特征量,并构建代价体; 最后利用多层 U-Net 体系结构来正则化代价体,并通过回归结合参考图像边缘信息生成最终的细化深度图。 结果 DTU 数据集上进行测试,与现有的几种方法相比,本文方法相较于 ColmapGipuma Tola,整体性指标分别提高了 8.5%13.1%31.9%;完整性指标分别提高了 20.7%41.6%73.3%;相较于 CampFuru SurfaceNet,整体性指标分别提高 24.8%33%29.8%;准确性指标分别提高了 39.8%17.6%1.3%;完整性指标分别提高了 9.7%48.4%58.3%相较于 PruMvsnet,整体性指标提高了 1.7%,准确性指标提高了 5.8%;相较与 Mvsnet,整体性指标提升了 1.5%,完整性 标提升了 7%结论 DTU 数据集上的测试结果表明,本文所提出的网络架构在整体性指标上得到了目前最优的结果, 完整性和准确性指标也得到较大提升,3D 重建质量更好,证明本文方法的有效性。 关键词注意力机制;多层U-Net;可微分单应性变换;代价体正则化;多视图立体 Fusion attention mechanism and multi-layer U-Net for Multi-view stereo Liu HuijieBai ZhengyaoChengweiLi JunjieXuzhu School Of Information Science And Engineering,Yunnan University,Kunming, Yunnan Province 650500China Abstract: Objective With the rapid development of deep learning, MVS research based on learning has also made great progress. The goal of Multi-view Stereo (MVS: Multi-view Stereo) is to reconstruct a highly detailed scene or object under the premise that a series of images and corresponding camera poses and inherent parameters (internal and external parameters of the camera) are known 3D geometric model. As a branch of computer vision, it has achieved tremendous development in recent decades and is widely used in many aspects, such as autonomous driving, robot navigation and remote sensing. Learning-based methods can incorporate global semantic information such as specular reflection and reflection priors to achieve more reliable matching. If the receiving field of CNN is large enough, it can better reconstruct poor texture areas.The existing learning-based MVS reconstruction methods mainly include three categories: voxel-based, point cloud-based and depth map-based.The voxel-based method divides the 3D space into a regular grid and estimates whether each voxel is attached to the surface; the point cloud-based method runs directly on the point cloud, usually relying on the propagation strategy to gradually make the reconstruction more dense; The depth map method is to use the estimated depth map as an intermediate layer to decompose the complex MVS problem into relatively small depth estimation problems per view, and only focus on one reference image and several source images at a time, and then perform regression (fusion) on each depth map to form the final 3D point cloud model. Although there is still room for improvement in the series of reconstruction methods proposed before, the latest MVS benchmark tests (such as DTU) have proven that using depth maps as an intermediate layer can achieve more accurate 3D model reconstruction. Then some end-to-end JI G JI G JI G JI G JI G JI G JI G JI G JI G JI G JI G JI G JI G JI G JI JI G JI G JI G JI G JI G JI G JI G JI G JI G JI G G JI G JI G JI G JI G JI G JI G JI G JI G JI G JI G 中国图象图形学报版权所有

Transcript of :TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

Page 1: :TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

收稿日期: ; 修回日期:

基金项目:云南省重大科技专项计划项目(项目编号:202002AD080001) Supported by:Yunnan Provincial Major Science and Technology Special Plan Projects

中图法分类号:TP391.4 文献标识码:A 文章编号:1006-8961(年) -

融合注意力机制和多层 U-Net 的多视图立体重建 刘会杰,柏正尧,程威,李俊杰,许祝

云南大学信息学院,云南省昆明市 650500

摘 要 :目的 针对目前多视图立体(MVS)重建结果整体性不太理想的问题,本文对 MVS 3D 重建中的特征提取模

块和代价体正则化模块进行研究,提出了一种基于注意力机制的端到端深度学习架构,解决了重建效果整体性不太理想的

问题,同时完整性也得到提升。方法 首先从输入的源图像和参考图像中提取深度特征,在每一级特征提取模块中均加入

注意力层,以捕获深度推理任务的远程依赖关系;然后通过可微分单应性变换来构建参考视锥的特征量,并构建代价体;

最后利用多层 U-Net 体系结构来正则化代价体,并通过回归结合参考图像边缘信息生成最终的细化深度图。结果 在 DTU

数据集上进行测试,与现有的几种方法相比,本文方法相较于 Colmap,Gipuma 和 Tola,整体性指标分别提高了 8.5%,

13.1%,31.9%;完整性指标分别提高了 20.7%,41.6%,73.3%;相较于 Camp,Furu 和 SurfaceNet,整体性指标分别提高

了 24.8%,33%,29.8%;准确性指标分别提高了 39.8%,17.6%,1.3%;完整性指标分别提高了 9.7%,48.4%,58.3%;

相较于 PruMvsnet,整体性指标提高了 1.7%,准确性指标提高了 5.8%;相较与 Mvsnet,整体性指标提升了 1.5%,完整性

标提升了 7%。结论 在 DTU 数据集上的测试结果表明,本文所提出的网络架构在整体性指标上得到了目前最优的结果,

完整性和准确性指标也得到较大提升,3D 重建质量更好,证明本文方法的有效性。

关键词:注意力机制;多层U-Net;可微分单应性变换;代价体正则化;多视图立体

Fusion attention mechanism and multi-layer U-Net for Multi-view stereo

Liu Huijie,Bai Zhengyao,Chengwei,Li Junjie,Xuzhu

School Of Information Science And Engineering,Yunnan University,Kunming, Yunnan Province 650500,China

Abstract: Objective With the rapid development of deep learning, MVS research based on learning has also made great progress.

The goal of Multi-view Stereo (MVS: Multi-view Stereo) is to reconstruct a highly detailed scene or object under the premise that

a series of images and corresponding camera poses and inherent parameters (internal and external parameters of the camera) are

known 3D geometric model. As a branch of computer vision, it has achieved tremendous development in recent decades and is

widely used in many aspects, such as autonomous driving, robot navigation and remote sensing. Learning-based methods can

incorporate global semantic information such as specular reflection and reflection priors to achieve more reliable matching. If the

receiving field of CNN is large enough, it can better reconstruct poor texture areas.The existing learning-based MVS

reconstruction methods mainly include three categories: voxel-based, point cloud-based and depth map-based.The voxel-based

method divides the 3D space into a regular grid and estimates whether each voxel is attached to the surface; the point cloud-based

method runs directly on the point cloud, usually relying on the propagation strategy to gradually make the reconstruction more

dense; The depth map method is to use the estimated depth map as an intermediate layer to decompose the complex MVS problem

into relatively small depth estimation problems per view, and only focus on one reference image and several source images at a

time, and then perform regression (fusion) on each depth map to form the final 3D point cloud model. Although there is still room

for improvement in the series of reconstruction methods proposed before, the latest MVS benchmark tests (such as DTU) have

proven that using depth maps as an intermediate layer can achieve more accurate 3D model reconstruction. Then some end-to-end

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

中国图象图形学报版权所有

Page 2: :TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

neural networks were proposed to directly predict the depth of the scene from a series of input images (for example: Yao et al.,

proposed MVSNet and R-MVSNet). Even though the accuracy of these methods has been verified on the DTU datasets, most

methods still only use 3D CNN to predict the occupancy of depth maps or voxels, which not only leads to excessive memory

consumption but also limits the resolution, the reconstruction results are not ideal. In response to the above problems, this paper

proposes an end-to-end deep learning architecture based on the attention mechanism for 3D reconstruction. It is a deep learning

framework that takes a reference image and multiple source images as input, and finally obtains the corresponding reference image

depth map. The depth map estimation steps are as follows: depth feature extraction, matching cost construction, cost regularization,

depth map estimation and depth map optimization. Method First, extract the depth features from the input multiple source images

and a reference image. At each layer of feature extraction, an attention layer is added to the feature extraction module to focus on

learning important information for deep reasoning, so as to capture remote dependencies in deep reasoning tasks; then the

differentiable homography deformation is used to construct the feature quantity of the reference cone, and then the matching cost

volume is constructed. The central idea of the construction cost volume is to calculate the reference under the assumption of each

sampling depth the matching cost between each pixel in the camera and its neighboring camera pixels; finally, the multi-layer

U-Net architecture is used to normalize the cost, that is to down-sample the cost volume, extract the context information and

adjacent pixel information of different scales, and filter the cost amount, then the final refined estimated depth map is generated

through regression. In addition, the difference-based cost measurement used in this article not only solves the problem of the input

quantity of any view, but also can finally aggregate multiple element quantities into one cost quantity. In summary, this paper has

made the following two contributions in this work: An attention mechanism applied to the feature extraction module is proposed to

focus on learning important information for deep reasoning, so as to capture the remote dependencies of deep reasoning tasks. A

multi-layer U-Net network is proposed for cost regularization, that is to down-sample the cost volume, and extract context

information and neighboring pixel information of different scales to filter the cost volume, and then the final refined estimated

depth map is generated through regression. Result Our method is tested on the DTU datasets and compared with several existing

methods.Compared with Colmap, the overall index increased by 8.5% and the completeness index increased by 20.7%; compared

with the Gipuma method, the overall index increased by 13.1% and the completeness index increased by 41.6%; compared with

the Tola method, the overall index increased by 31.9% and the completeness index increased by 73.3%; compared with the Camp

method, the overall index increased by 24.8%, and the accuracy index increase by 39.8% and the completeness index increase by

9.7% ; compared with the Furu method, the overall index increased by 33%, the accuracy index increased by 17.6% and the

completeness index increased by 48.4%; compared with the SurfaceNet method, the overall index increased by 29.8%, the

accuracy index increased by 1.3% and the completeness index increased by 58.3%; compared with the PruMvsnet method, the

overall index increased by 1.7% and the accuracy index increased by 5.8%; compared with Mvsnet, the overall index increased by

1.5% and the completeness increased by 7%. Conclusion The test results on the DTU data set show that the network architecture

proposed in this paper has obtained the current best results in terms of overall indicators, the completeness and accuracy indicators

have also been greatly improved, and the quality of 3D reconstruction is better. This proves the effectiveness of the proposed

method .

Key words:attention mechanism; multi-layer U-Net; differentiable homography transformation; cost volume regularization;

multi-view stereo

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

中国图象图形学报版权所有

Page 3: :TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

0 引 言

多视图立体(Multi-view Stereo,MVS)的目标

是:在已知一系列图像以及相应的相机姿态和固有

参数(相机的内外参数)的前提下,重建观察到的

场景或者对象的高精度 3D 几何模型。作为计算机

视觉的一个分支,最近几十年来它已经取得了巨大

的发展,并被广泛应用在多个领域,例如自动驾驶、

机器人导航、遥感和可移动文物(Liu,2016;Zhang,2018)等。

在现有的 MVS 重建方法中,基于几何上下文的

传统方法(Campbell 等,2008;Furukawa 等,2010;Galliani 等,2016;Schonberger 等,2016)在用朗

伯曲面进行场景重建时,已经取得了巨大的成功,

尤其是在准确性方面,但是它们在重建弱纹理和镜

面反射区域以及完整性方面还是遇到了困难。此外,

它们通常还需要花费很长时间才能建立对应的 3D映射关系,场景越大,需要花费的时间就越多。为

了解决这些问题,最近的方法(Huang 等,2018;Kar 等 , 2017 ) 使 用 了 深 度 卷 积 神 经 网 络

(Convolutional Neural Networks,CNN),速度相

比之前快了好几倍的同时也提高了整体场景的 3D重建质量。这主要得益于以下事实:基于学习的方

法可以合并诸如镜面反射和反射先验之类的全局语

义信息,从而实现更可靠的匹配。在 CNN 的感受野

足够大的情况下,还能更好地重建较差的纹理区域。 现有的基于学习的 MVS 重建方法主要包括三

大类:基于体素,基于点云和基于深度图。基于体

素的方法将 3D 空间划分为规则网格,并估计每个

体素是否附着在表面上。它的缺点主要是空间离散

度误差以及巨大的内存消耗;基于点云的方法直接

在点云上运行,通常依靠传播策略逐渐使重建变得

更加密集。由于点云的传播都是逐步进行的,不能

并行,从而导致重建需要花费很长的时间;基于深

度图的方法则是利用估计的深度图(Chen 等,2019;Choi 等,2018;Yang 等,2020;Huang 等,2018;Luo 等,2019;Xue 等,2019;Yao 等,2018;Weilharter 等,2021)作为中间层,将复杂的 MVS问题分解成相对较小的每视图深度估计问题,并且

每次只关注一个参考图像和几个源图像,然后对每

个深度图进行回归(融合)以形成最终的 3D 点云

模型。尽管之前提出的一系列重建方法仍有改进的

余地,但最新的 MVS 基准测试(例如 DTU(Jensen 等,2014))已证明,使用深度图作为中间层的方

法可以实现更准确的 3D 模型重建。紧接着提出了

一些端到端的神经网络,直接从一系列输入图像中

预测场景的深度(例如:Yao 等提出的 MVSNet(2018)和 R-MVSNet(2019))。即使这些方法

的准确性已经在 DTU 数据集上得到验证,但大多数

方法还是只利用了 3D CNN 来预测深度图或者体素

的占用,不仅导致内存消耗过多还限制了分辨率的

提高。 为了解决以上问题,本文提出一种基于注意力机

制进行 3D 重建的端到端的监督学习网络,是以一

张参考图像和多张源图像作为输入,最终得到相对

应的参考图像深度图的一种深度学习框架。其深度

图估计步骤如下:深度特征提取、匹配代价体的构

建、代价体正则化、深度图估计、深度图优化。首

先从输入的多张源图像和一张参考图像中提取深度

特征,在特征提取的每个级别中加入注意力层,以

专注于学习重要信息用于进行深度推理,从而捕获

深度推理任务中的远程依赖关系,即从众多信息中

选择出对当前任务目标更关键的信息:首先计算查

询点与所有点之间的成对关系以得到注意力图,然

后通过加权和的方式聚合所有点的特征,从而得到

与此查询点相关的全局特征,最终再分别将全局特

征加到每个查询点的特征中,完成远程依赖的建模

过程;然后采用可微分单应性变换来构建参考视锥

的特征量,接着进行匹配的代价体的构建,其中心

思想是在每个采样深度假设下,计算参考像机中的

每个像素与其相邻摄像机像素之间的匹配成本;最

后利用多层 U-Net 体系结构来正则化代价体即对代

价体进行降采样,并提取不同尺度的上下文信息和

临近像素信息对代价体进行过滤,进而通过回归生

成最终的细化估计深度图。此外,本文中应用的基

于差异的成本度量准则,不仅解决了任意视图的输

入数量问题,还可以将多个要素量最终汇总为一个

成本量。 本文工作的主要贡献包括:1)提出了一种注意

力机制用于特征提取模块,以专注于学习重要信息

用于进行深度推理,从而捕获深度推理任务的远程

依赖关系;2)提出了一种多层 U-Net 网络,用于代

价体正则化,对代价体进行降采样,并提取不同尺

度的上下文信息和临近像素信息对代价体进行过

滤,进而通过回归生成最终的细化估计深度图。

1 相关工作

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

中国图象图形学报版权所有

Page 4: :TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

传统的 MVS 方法是通过使用多个摄像机所拍

摄的视图之间的投影关系来迭代优化深度。由

Schonberger 和 Frahm(2016)提出的 COLMAP,在

特征匹配阶段采用了手工特征匹配方法,并优化了

每个像素的深度值。由于在从公共基准到互联网照

片集的众多场景中表现出色,准确性也很高,因此

COLMAP 已经成为传统 MVS 方法的标准。但这种

方法的主要缺点之一就是处理时间过长,即使是单

个图像的深度图估计,如果运用传统的色彩块匹配

方法,也需要花费好几分钟时间。因此,基于学习

方法的出现逐渐取代了传统的手工特征匹配方法,

但如果使用优化程序来一对一地优化像素深度值的

话,实现过程又难以并行且耗时极大。其他方法

(Furukawa 等,2006;Li 等,2016;Zaharescu 等,

2007)使用可变形的多边形网格来估计深度值,也

是需要先对场景表面进行良好的初始化,并需要迭

代地提高光度一致性。Moulon 等(2017)提出了一

个著名的多视图几何开源库 OpenMVG,主要用于

处理多视图实体几何,还提供了特征提取和匹配方

法以及 SFM(Structure From Motion)完整工具链。

尽管 OpenMVG 可以从一组输入的图像中恢复相机

姿势和稀疏的 3D 点云,但最终还是没有解决摄影

制图链流的最后一部分。Cernea(2015)提出了多

视图立体重建开源库 OpenMVS,旨在通过提供一套

完整的算法来恢复要重建场景的整个表面来填补这

一空白。虽然利用了跨尺度特征,但还是有无纹理

区域的困扰问题存在。 目前基于深度学习的快速发展,越来越多的关于

使用卷积神经网络进行 MVS 重构的研究已经取得

了显著进展。Eigen 等(2014)首先提出了将卷积

神经网络用于单眼深度估计的方法,主要将网络分

为两个模块:粗略全局预测和局部细化预测,并通

过尺度不变误差定义损失函数,为进一步研究基于

学习的 MVS 重建提供了强大的思想和指导方法。

Choy 等(2016)受长短期记忆网络(Long Short-Term Memory,LSTM)的启发(Hochreiter 等,1997)提出了 3D-R2N2,该网络扩展了标准的 LSTM 框架

以构建 2D 图形到 3D 体素的映射,从而完成了单个

或多个视图(多个视图的输入也同样被视为 LSTM的输入序列)的 3D 重建。然而存在的问题是该网

络重建精度比较低,如果提高精度就需要提高分辨

率,但是提高分辨率,就会极大地增加计算所需时

间。为了解决 MVS 分辨率低的问题,Ji 等(2017)提出了一个端到端的学习框架 SurfaceNet,可以直

接学习光度一致性以及表面结构的几何关系。首先

将整个空间划分为较小的彩色体素立方体(Colored Voxel Cubes,CVC),然后将所有体素立方体的颜

色信息和相机参数结合构成一个 3D 代价体,所构

成的 3D 代价体即为网络的输入,但由于

SurfaceNet 网络的规模很难增大,即使应用启发式

的“分而治之”策略,也需要花费很长时间才能进

行大尺度的重建。所以 Huang 等(2018)提出了

DeepMVS。作为多分类问题,它是采用编码器—解

码器体系结构进行特征提取和深度估计。但由于

DeepMVS 是将图像序列预处理为 Patch,因此在训

练过程中会丢失图像的全局信息。

在 DeepMVS 之后,Yao 等(2018)提出的

MVSNet,本质上是借鉴基于两张图片代价体的双目

立体匹配的深度估计方法,进而扩展到多张图片的

深度估计。本身代价体的双目立体匹配方法已经较

为成熟,所以 MVSNet 本质上也是借鉴一个较为成

熟的领域。这已经成为大多数 MVS 重建方法事实上

的标准管道。Im 等(2019)提出了 DPSNet,和

MVSNet(Yao 等,2018)一样都是使用可微分单应

性变换来构造代价体,并从代价体中回归深度图。

此后,Yao 等又提出了基于循环网络的 R-MVSNet(2019),利用门控循环单元(Gate Recurrent Unit,GRU)代替 3D-CNN 来正则化代价体,从而有效地

减少了内存消耗,但这样也增加了估计深度的平均

误差距离,并且显著增加了运行时间。Luo 等(2019)设计了一个 Patch 的置信量,从而获得了更好的重

建结果。 Xue 等(2019)则另外添加了条件随机场

(Conditional Random Fields,CRF)作为后处理步

骤,以生成平滑的深度图。Gu 等(2020)提出了

Cascade-MVSNet,重点是提出了级联代价体的方

法。首先代价体是建立在特征金字塔编码几何结构

和上下文的基础上的,并且逐渐缩小;然后通过前

一阶段的预测可以缩小每个阶段的深度(或视差)

范围。随着成本体积分辨率的逐渐提高和深度(或

视差)间隔的自适应调整,输出将以较粗略的方式

逐渐恢复为较精细的状态,这样做即节省了内存又

节省了时间。Yu 和 Gao(2020)则是在他们提出的

Fast-MVSNet 中探索了一种从稀疏到密集的方法:

通过仅构造稀疏的成本量来学习稀疏的高分辨率深

度图,然后再在局部致密。Chen 等(2019)则提出

了 Point-MVSNet:一种以粗到精的方式估计深度值

的方法,同时利用拟议的 PointFlow 模块将粗略的深

度图迭代优化为最终的细化深度图。

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

中国图象图形学报版权所有

Page 5: :TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

2 方法

尽管现有的基于深度学习的 MVS 方法已经在各

种任务基准中达到了最先进的水平,但仍未考虑与

注意力机制结合以捕获大规模特征并获得高分辨率

图像,从而提高结果的完整性。在本项工作中,我

们将重点放在多尺度的多层U-Net以及对MVS神经

网络的自我关注上,以获得更大的自适应感受野,

从而得到更高精度以及更完整的深度结果。网络的

主要模块为:深度特征提取、匹配代价体的构建、

代价体正则化、深度图估计、深度图优化,如图 1所示。

图 1 本文网络的整体框架

Fig.1 overall framework of the network in this article

2.1 深度特征提取

本文的深度特征提取模块(即 FA 模块)由卷

积层和注意层组成,其中有卷积层 8 个,32 输出通

道的注意层 1 个。临近像素之间的语义信息已经被

成功编码到这个经 32 通道输出的特征图中,可以有

效防止输入的图像样片被降采样后丢失语义信息。

样片通过神经网络提取的图像特征称为深度特征,

对比传统图像特征提取方法则有着更好的匹配精度

和效率。输入部分是经过视角选择之后已经成功配

对的 N 张图像(参考图像和源图像),对这 N 张图

像进行特征提取时,其权重参数都是共享的。如图

2 所示。

图 2 FA 模块 图 3 注意力层模块

Fig.2 FA module Fig.3 Attention layer module

本文网络是在 MVSNet(Yao 等,2018)的特

征提取模块加入了一层注意力层,以专注于学习重

要信息用于进行深度推理,如图 3 所示。自我注意

(有时称为内部注意)是一种与单个序列的不同位

置相关的注意力机制,目的是计算序列的表示形式,

从而允许对依赖项进行建模,而不必考虑它们在输

入或输出序列中的距离。注意功能可以描述为将查

询和一组键值对映射到输出,其中查询(Q),键

(K),值(V)和输出都是向量,然后将输出计算

为值的加权总和(其中分配给每个值的权重是通过

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

中国图象图形学报版权所有

Page 6: :TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

查询与相应键的兼容性函数来计算的),如下式(1)

所示。

(1)

式中, jk efx= Qq w , ef efx= Kk w 和 ef efx= Vv w 分别

表示查询,键和值,D 表示具有相同内核大小的卷

积计算的图像块,Sx 表示 Softmax,并且矩阵

( , , )=gw g Q K V 由学习参数组成。从式(1)中可

以看出输出 jky 是通过位置像素和附近像素的线性

变换实现的,并且此操作是通过值向量 jk 的凸组

合聚合空间信息,通过内容交互参数化混合权重。

2.2 匹配代价体的构建

可微分单应性变换投影的过程类似于经典的平

面扫描算法,唯一的区别在于采样点来自于特征图

而不是 RGB 图像。之所以采用平面扫描算法,是因

为其不仅适用于无纠正图像,还能达到实时计算视

图差的效果。通过投影变换,N 张图像可形成 N 个

特征体,这个特征体就是匹配代价的表示。通过深

度特征提取后,每张图像 { }1i ∈ ∪I I A 都可以得到一

张对应的特征图 iF ,根据先验的深度范围信息,索引

1 表示参考图像, 1n 表示相机的主轴方向,对于参

考图像 1I 以其主轴为扫描方向,将参考图像按照某

一深度间隔 scaled ,从最小深度处 mind ,一直映射到

最大深度处 maxd,可以得到一个处于不同深度间隔

的相机锥体,为了便于计算光学一致性,利用插值

的方法,使得每张投影的长宽一样,从而利用 2D

的特征生成 3D 的特征量,即为把其他图像上的特

征扭曲到参考图像的相机视锥中的 192 个深度平面

上,总有一个深度是对应的。已知参考图像 1I,候

选集中图像的相机参数为:{ } 1, , ,j j j i = ∪K R t I A。考

虑到对亚像素的深度估计,以保证深度图平滑,该

单应性矩阵是完全可以微分的。第 j 个特征扭曲到

参考图像相机视锥的深度 d 平面的单应矩阵计算为

公式(2)。

1 11 1

( )( ) ( )

Tj T T

j j j

nd

d− ×

= × × − × ×t t

H K R I R K (2)

式中 jK , jR , jt 表示相机的本征特征和外在事物。

对于 1I ,将候选集中代表 j ∈I A的特征图 jF 投影

到该相机椎体的不同深度中定义这个投影变换为

下式(3):

1 ( ) [1]j jd x= ×X H (3)

2.3代价体正则化

原始代价体往往是含有噪声污染的,因此,为

了防止噪声使网络过度拟合,本文使用基于多尺度

的多层三维卷积神经网络(MU-Net)进行代价体正

则化,即利用 U-Net 网络(Ronneberger 等,2015)

对代价体进行降采样,并提取不同尺度中的上下文

信息和临近像素信息,以相对较小的存储/计算代价

在一个大的感受野范围内进行领域信息聚合,如图

4 所示。核心思想就是就是利用 3 D 卷积,对代价

体进行过滤,把视角差信息转化为能求深度图的信

息。为不失随机性,本文使用一种基于方差的多视

图一致性度量准则,实现了对任意视角图像数量的

有效处理,从而保证每一个特征体 S 都等权加入方

差计算中。利用下式(4)构造这个三维代价体。代

价体是一个由长、宽与参考图像长宽一样的代价图

在深度方向连接而成的三维结构。在深度维度每一

个单位表示一个深度值。其中某一深度的代价图上

的像素表示参考图像在相同深度处与候选集图像的

匹配代价。

1( )

n

ii=

−=

∑ S SC

N

(4)

Tjk ef jk ef efSx

= ∑D

y q k v( )

e,f

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

中国图象图形学报版权所有

Page 7: :TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

式中,S 指的是所有特征量的均值,C 表示代价体,

其中所包含的信息就是视角差的信息,并且是对所

有源图像和参考图像求得的视角差,然后再计算平

均值。N表示特征量的数量。

图 4 代价体正则化模块

Fig.4 Cost volume regularization module

2.4 深度图估计

深度估计是通过神经网络直接学习的。输入特

征体 S 和对应 GT 深度图(Ground Truth),利用 Soft

argmin 回归每一个像素在深度 d 处的概率,得到一

个表示参考图像沿深度方向置信度的概率体 p,以

此完成从代价体到深度值的学习过程。当已知概率

体时,最简单的可以获取参考图像的所有像素在不

同深度的概率图的方法,就是按照“赢者通吃”原

则直接估计深度图。然而此原则无法在亚像素级别

估计深度,还会造成深度突变、不平滑等情况,所

以需要沿着概率体的深度方向,以深度期望值作为

该像素的深度估计值,才会使得整个深度图中的不

同部分内部较为平滑,如下式(5)所示。

max

min

( )d

md d

d d P d=

= ×∑ (5)

式中, ( )P d 表示特征 m 在深度 d 的置信度。

2.5 深度图优化

由于在代价体正则化阶段较大的感受野使得重

建的边缘部分过于平滑,则需要从参考图像中获取

边缘信息来优化这些区域的精度。优化阶段使用了

深度残差网络,输入为上一步估计的初始深度图(单

通道)加上参考图像(三通道)共四通道,然后通

过三个 32 通道的二维卷积和一个单通道的卷积(不

加 BN 和 Relu,最后一层输出残差)并与初始深度

图相加,得到优化后的单通道深度图。本文使用 1L

损失作为训练损失来衡量 GT 深度图和估计深度图

之间的绝对差。只考虑那些有效的像素点,即存在

Ground Truth 标签的像素。如下式(6)所示。

valid

1 11Loss ( ) ( ) ( ) ( )ip P

d p p d p pd d∧ ∧

= − + −∑ (6)

式中,初始深度图 id 到 Ground Truth 的L0 距离和优

化后深度图 1d 到 Ground Truth 的L1距离作为损失。

遵循其他网络[8]的设置,λ系数设置为 1。

3 实验

3.1数据集

DTU 数据集(Jensen 等,2014):DTU 数据

集是专门针对 MVS 拍摄并处理的大型室内数据集。

利用一个搭载可调节亮度灯的工业机器臂对一个物

体进行角度严格控制的多视角拍摄,所以可以获取

每个物体不同视角下的相机的内外参数。该数据集

一共包括 124 个不同的场景,每个场景都是从 49 或

64 个位置拍摄的,包括有各种各样的对象,对应于

场景或扫描中的 RGB 图像数量,用来解决 MVS 问

题,图像分辨率均为 1600×1200。最后在 49 或 64个位置中记录了场景,从定向到漫射一共存在 7 种

不同的光照条件。

3.2实现细节

在 DTU 数据集上训练本文的网络,并在评估集

上进行评估。根据 MVSNet(Yao 等,2018)中的

给定 Ground Truth 生成深度图进行数据预处理。由

于内存需求,在训练和测试阶段,输入图像分辨率

设置为 1152×864,视图数量设置为 3(即每个训练

样本都由一个参考图像和两个源图像组成),一共

训练 27097(49×7×79)张图片,测试 7546(49×7×22)张图片。初始学习率为 0.001,对于平行假设深度范

围,在从 dmin = 425mm 到 dmax = 935mm 的 192 个

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

中国图象图形学报版权所有

Page 8: :TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

虚拟平面(即 D = 192)上均匀采样每个参考图像,

间隔大小为 1.06。本文将流迭代设置为 I = 3,深度

间隔分别为 2mm,4mm 和 8mm 以进行深度细化。

网络是在 Pytorch(Furukawa 等,2010)上实现的,

在 1 个 NVIDIA RTX 2080Ti 显卡上运行,Batch Size设置为 1。Adam(kingma 等,2017)被用作优化

求解器(β1= 0.9,β2= 0.999)来训练 16 个 epoch。

3.3 基准测试结果

本文与现有的传统方法 Colmap(Schonberger 等,

2016);Gipuma(Gallinai 等,2015);Tola(Tola 等,2012);Camp(Campbell 等,2008);Furu(Furukawa 等,2010)和基于学习的方法 SurfaceNet(Ji 等,2017);PruMvsnet(Xiang 等,2020);

Mvsnet(Yao 等,2018)做了对比。与(Yao 等,

2018)相对比,整体性方面提升了 1.5%,完整性方

面提升了 7%,以此证明了本文方法的有效性。结果

如表 1 所示。(其中 Mvsnet*是在自己的设备上运

行(Yao 等,2018)代码的结果)本文使用的评估

协议是由 DTU 官方网站提供的,评估的是重建准确

性(Accuracy,Acc)和完整性(Completeness,Comp)的平均误差,以及两者的平均值即整体性(OverAll,

OA)。其准确性表示估算的点云与 Ground Truth 之

间的距离,而完整性则定义为从 Ground Truth 到估

算的点云之间的距离。对于这三个评价指标,值越

低则表示重建质量越好。DTU 数据集基准测试效果

如图 5 所示。 表 1 不同方法的测试结果对比

Table 1 Comparison of test results of different methods

Methods OA(mm) Acc(mm) Comp(mm)

Colmap 0.532 0.400 0.664

Gipuma 0.578 0.283 0.873

Tola 0.766 0.342 1.190

Camp 0.695 0.835 0.554

Furu 0.777 0.613 0.941

SurfaceNet 0.745 0.450 1.040

PruMvsnet 0.464 0.495 0.433

Mvsnet 0.462 0.396 0.527

Mvsnet* 0.468 0.486 0.450

Ours 0.447 0.437 0.457

注:加粗字体为最优值

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

中国图象图形学报版权所有

Page 9: :TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

(a)深度图 (b)置信图 (c)重建效果图

图 5 DTU 数据集的基准测试结果(从上至下依次 scan4,、scan9,scan24,scan33)

Fig.5 Benchmark test results of DTU datasets (from top to bottom scan4, scan9, scan24, scan33)

((a)depth map;(b)confidence map;(c)reconstruction effect map)

从DTU数据集的基准测试结果图以及表 1可以

看出,本文提出的网络在整体性和完整性指标方面

有了一定的改进,但最终呈现出来的效果图还是有

一定的缺失,例如 a3 和 c3 的边缘缺失以及 b3 和 d3的底部缺失,推测出现此现象的原因是:在代价体

正则化阶段由于较大的感受野使得重建的边缘部分

过于平滑,所以造成了效果图有部分缺失。完整性

改进主要是通过将注意力机制与 MVS 集成在一起

来实现的,从而使该模型可以学习预测更精确的深

度值;整体性改进主要是来自特征提取和正则化网

络的低级和高级功能的集成:用于特征提取模块的

注意力机制,可以专注于学习重要信息;多层 U-Net网络可以提取不同尺度的上下文信息和临近像素信

息,最终可以通过估计精确的点位置来重建逼真的

3D 模型。

3.4 消融实验

为了进一步验证本文方法的有效性,本节提供

了消融实验和定量分析,用来评估框架中关键组件

的优势。针对本文提出的注意力机制和多层 U-Net

网络,做了以下四组对比实验。其均在 DTU 数据集

上进行了实验和评估,并使用准确性和完整性结果

来衡量重建质量,如表 2 所示。

表 2 消融测试结果对比

Table 2 Comparison of ablation test results

Methods OA(mm) Acc(mm) Comp(mm) GPU(M) Run Time(s) Model Parameters

FE+U-Net 0.468 0.486 0.450 7950 10.49 338129

FA+U-Net 0.462 0.479 0.446 8281 0.51 341297

FE+MU-Net 0.445 0.454 0.435 10423 1.08 336721

FA+MU-Net 0.447 0.437 0.457 10293 1.11 339889

注:加粗字体为最优值(其中 FE 和 U-Net 表示原特征提取模块和原代价体正则化模块;FA 和 MU-Net 表示本文提出的特征

提取模块和用于代价体正则化的多层 U-Net,所记录运行时间均为训练集单个 epoch 的单个模型参数的运行时间均值)

根据表 2 中的结果对比分析,在原来的基础上

加注意力机制,整体性指标提高了 0.6%,准确性指

标提高了 0.7%,完整性指标提高了 0.4%,内存增加

了 331M,模型参数增加了 3168,但运行时间相当

于原来的 4.9%,这归因于注意力机制可以捕获更重

要的信息,便于进行深度推理;在原来的基础上加

多层 U-Net,整体性指标提高了 2.3%,准确性指标

提高了 3.2%,完整性指标提高了 1.5%,内存增加了

2473M,但模型参数却减少了 1408,运行时间相当

于原来的 10.3%,归因于多层 U-Net 可以同时提取

上下文信息和邻域信息,便于对代价进行体滤;在

原来的基础上同时加注意力机制和多层U-Net,整体

性指标提高了 2.1%,准确性指标提高了 4.9%,内存

增加了 2343M,模型参数增加了 1760,运行时间相

当于原来的 10.5%,集成了来自特征提取和正则化

网络的低级和高级功能的优势,不仅提高了重建结

果的清晰度和精度,还在一定程度上得到了更高质

量的重建效果。DTU 数据集中不同 scan 数据的效果

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

中国图象图形学报版权所有

Page 10: :TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

如图 6 所示。

图 6 DTU 数据集中不同 scan 数据的效果图

Fig.6 Effect pictures of different scan data in DTU datasets

4 结 论

本文提出了一种基于注意力机制进行 3D 重建

的端到端深度学习架构,以改进基于深度图的深度

学习体系结构以进行 MVS 重构,同时还应用了多层

U-Net 网络对代价体进行正则化。注意力机制用于

特征提取模块,以专注于学习重要信息用于进行深

度推理,从而捕获大规模特征并获得高分辨率图像。

多层 U-Net 网络则用于对代价体进行正则化,即对

代价体进行降采样,并提取不同尺度的上下文信息

和临近像素信息对代价体进行过滤。DTU 数据集上

的实验结果表明,本文提出的网络比以前网络的结

果更好,在整体性方面提升了 1.5%,达到了 44.7%;

完整性方面提升了 7%,达到了 45.7%,同时还得到

了更高质量的重建效果。但由于在网络模型中增加

了注意力机制和多层 U-Net,导致参数增多,内存

占用也更大。 由于内存需求,本文网络对输入图片的分辨率

设置较低,而且只适用于大型室内数据集。如何在

现有基础上提高重建准确性以及应用于大型室外数

据集是未来要研究的一个方向。

参考文献(References)

Campbell N D F, Vogiatzis G, Hern á ndez C and Cipolla R. 2008.Using multiple hypotheses to improve depth-maps for multi-view stereo//European Conference on Computer Vision. ECCV: 766-779[DOI: 10.1007/978-3-540-88682-2_58]

Cernea D.2015.Openmvs:Open multiple view stereo vision[CP/OL].

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

中国图象图形学报版权所有

Page 11: :TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

[2021-06-10]. https://github.com/cdcseacave/openMVS/ Chen R , Han S, Xu J and Su H. 2019. Point-based multi-view stereo

network// IEEE/CVF International Conference on Computer Vision. ICCV: 1538-1547 [DOI:10.1109/TPAMI.2020.2988729]

Choi S, Kim S, Park K and Sohn K. 2018.Learning descriptor, confidence, and depth estimation in multi-view stereo//IEEE /CVF Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City, UT, USA : CVPRW : 389–396[DOI: 10.1109/CVPRW.2018.00065]

Choy C B, Xu D, Gwak J Y, Chen K and Savarese S. 2016. 3D-R2N2: A unified approach for single and multi-view 3D object reconstruction//European Conference on Computer Vision. Springer International Publishing: ECCV: 628-644[DOI: 10.1007/978-3-319-46484-8_38]

Eigen D, Puhrsch C and Fergus R. 2014. Depth map prediction from a single image using a multi-scale deep network[EB/OL]. [2021-06-10]. https://arxiv.org/pdf/1406.2283.pdf

Furukawa Y and Ponce J.2006.Carved visual hulls for high-accuracy image-based modeling//European Conference on Computer Vision. ECCV: 564–577[DOI: 10.1007/11744023_44]

Furukawa Y and Ponce J. 2010.Accurate, dense, and robust multi view stereopsis//IEEE Transactions on Pattern Analysis and Machine Intelligence. TPAMI: 32(8): 1362-1376[DOI: 10.1109/TPAMI.2009.161]

Galliani S , Lasinger K and Schindler K. 2015. Massively parallel

multi-view stereopsis by surface normal diffusion// IEEE

International Conference on Computer Vision. ICCV: 873–

881[DOI:10.1109/iccv.2015.106]

Galliani S, Lasinger K and Schindler K. 2016.Gipuma: Massively parallel multi-view stereo reconstruction//Dreiländertagung der DGPF, der OVG and der SGPF in Bern, Schweiz – Publikationen der DGPF.ETH Zürich, Photogrammetry and Remote Sensing, Stefano-Franscini-Platz: 5: CH-8093 [EB/OL]. [2021-06-10]. https://arxiv.org/pdf/ethz.cn.pdf

Gu X, Fan Z , Zhu S, Dai Z , Tan F and Tan P. 2020. Cascade cost volume for high-resolution multi-view stereo and stereo matching//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: CVPR: 2495 –

2504[DOI: 10.1109/CVPR42600.2020.00257] Hochreiter S and Schmidhuber J. 1997. Long short-term memory.

Neural Computation : 9 (8): 1735–1780 [DOI: 10.1162/neco.1997.9.8.1735]

Huang P H, Matzen K , Kopf J , Ahuja N and Huang J B. 2018. DeepMVS: Learning multi-view stereopsis//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: CVPR: 2821-2830[DOI: 10.1109/CVPR.2018.00298]

Im S, Jeon H G , Lin S and Kweon I S. 2019. DPSNet: End-to-end deep plane sweep stereo//Computer Vision and Pattern Recognition[EB/OL]. [2021-06-10]. https://arxiv.org/pdf/1905.00538.pdf

Jensen R, Dahl A, Vogiatzis G,Tola E and Aanaes H. 2014 . Large scale multi-view stereopsis evaluation//IEEE Conference on Computer Vision & Pattern Recognition. CVPR : 406–413[DOI:10.1109/CVPR.2014.59]

Ji M, Gall J, Zheng H, Liu Y and Lu F. 2017. SurfaceNet: An end-to-end 3D neural network for multiview stereopsis// IEEE International Conference on Computer Vision. Venice, Italy: ICCV : 2307-2315[DOI: 10.1109/ICCV.2017.253]

Kar A, Häne C and Malik J. 2017. Learning a multi-view stereo machine[EB/OL]. [2021-06-10]. https:// arxiv.org/pdf/1708.05375.pdf

Kingma D P and Ba J. 2017. Adam: A method for stochastic optimization[EB/OL]. [2021-06-10]. https://arxiv.org/pdf/1412.6980.pdf

Li Z, Wang K, Zuo W, Meng D and Zhang L. 2016. Detail-preserving and content-aware variational multi-view stereo reconstruction. IEEE Transactions on Image Processing, 25(2): 864 - 877[DOI: 10.1109/TIP.2015.2507400]

Liu J G. 2016. Three-dimensional reconstruction of multi-view

images of movable cultural relics[J].Archeology, 2016(12):

97-103(刘建国.2016.可移动文物的多视角影像三维重建.

考古, 2016(12): 97-103)[DOI:

CNKI:SUN:KAGU.0.2016-12-009]

Luo K, Guan T, Ju L, Huang H and Luo Y. 2019. P-MVSNet: Learning patch-wise matching confidence aggregation for multi-view stereo//IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): ICCV : 10452-10461[DOI: 10.1109/ICCV.2019.01055]

Moulon P, Monasse P, Perrot R and Marlet R. 2017. OpenMVG: Open Multiple View Geometry//Reproducible Research in Pattern Recognition. Springer, Cham: RRPR: 60-74[DOI: 10.1007/978-3-319-56414-2_5]

Pix4d[DB/OL]. [2021-06-10]. https://pix4d.com/ Ronneberger O, Fischer P and Brox T. 2015.U-net: Convolutional

networks for biomedical image segmentation[EB/OL]. [2021-06-10]. https:// arxiv.org/pdf/1505.04597.pdf

Schönberge J L, Zheng E , Frahm J M and Pollefeys M. 2016. Pixel-wise view selection for unstructured multi-view stereo// European Conference on Computer Vision . Springer, Cham: ECCV: 501-518[DOI: 10.1007/978-3-319-46487-9_31]

Schonberge J L and Frahm J M. 2016. Structure-from-motion revisited//IEEE Conference on Computer Vision & Pattern Recognition.CVPR: 4104-4113[DOI: 10.1109/CVPR.2016.445]

Tola E , Strecha C and Fua P. 2012. Efficient large-scale multi-view stereo for ultra high-resolution image sets//Machine Vision and Applications: 903–920[DOI:10.1007/s00138-011-0346-8]

Weilharter R and Fraundorfer F. 2021.HighRes-MVSNet: A fast

multi-view stereo network for dense 3D reconstruction from

high-resolution images//IEEE Access. IEEE-INST

ELECTRICAL ELECTRONICS ENGINEERS INC, 445 HOES

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

中国图象图形学报版权所有

Page 12: :TP391.4 :A 融合注意力机制和多层 U-Net 的多视图立体重建

LANE, PISCATAWAY, NJ 08855-4141 USA:

11306-11315[DOI: 10.1109/ACCESS.2021.3050556]

Xiang X, Wang Z, Lao S and Zhang B. 2020. Pruning multi-view stereo net for efficient 3d reconstruction. ISPRS Journal of Photogrammetry and Remote Sensing, 168: 17 – 27[DOI: 10.1016/j.isprsjprs.2020.06.018]

Xue Y, Chen J, Wan W, Huang Y, Yu C, Li T and Bao J. 2019. MVSCRF: Learning multi-view stereo with conditional random fields//IEEE/CVF International Conference on Computer Vision .Seoul, Korea (South): ICCV: 4311–4320[DOI:10.1109/ICCV.2019.00441]

Yang J, Mao W, Alvarez J M and Liu M. 2019.Cost volume pyramid Based depth inference for multi-view stereo[EB/OL]. [2021-06-10]. https:// arxiv.org/pdf/1912.08329.pdf

Yang J, Mao W, Alvarez J M and Liu M. 2020.Cost volume pyramid Based depth inference for multi-view stereo// IEEE/CVF Conference on Computer Vision and Pattern Recognition.ELECTR NETWORK: CVPR: 4876-4885[DOI: 10.1109/CVPR42600.2020.00493]

Yao Y, Luo Z, Li S, Fang T and Quan L. 2018. MVSNet: Depth

inference for unstructured multi-view stereo//European

Conference on Computer Vision. ECCV: 767–783[DOI:

10.1007/978-3-030-01237-3_47]

Yao Y, Luo Z, Li S, Shen T, Fang T and Quan L. 2019. Recurrent MVSNet for high-resolution multi-view stereo depth inference//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: CVPR: 5525–5534[DOI: 10.1109/CVPR.2019.00567]

Yu Z and Gao S. 2020.Fast-MVSNet: Sparse-to-Dense multi-view stereo with learned propagation and gauss-Newton refinement//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: CVPR: 1949 –

1958[DOI: 10.1109/CVPR42600.2020.00202] Zaharescu A, Boyer E and Horaud R. 2007. TransforMesh : A

topology-adaptive mesh-based approach to surface evolution//Asian Conference on Computer Vision. Tokyo, Japan: ACCV: 166-175[DOI: 10.1007/978-3-540-76390-1_17]

Zhang L. 2018. Exploration of shooting methods for multi-view 3D reconstruction of movable cultural relics[J].Cathaysian Archaeology, 000(001): 123-128(张蕾.2018.可移动文物多视

角三维重建的拍摄方法探索.华夏考古,000(001): 123-128) [DOI:CNKI:SUN:HXKG.0.2018-01-014]

作者简介

刘会杰,1994 年生,女,硕士研究生,研究方向为三

维重建。E-mail:[email protected]

柏正尧,通信作者,男,教授,主要研究方向为信

号处理,图像处理,模式识别与机器学习。 E-mail:[email protected] 其他作者: 程威,男,硕士研究生,研究方向为三维重建。

E-mail:[email protected]

李俊杰,男,硕士研究生,研究方向为三维重建。

E-mail:[email protected]

许祝,男,硕士研究生,研究方向为点云配准。

E-mail:[email protected]

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

J IG

中国图象图形学报版权所有