基于图像特征迁移的光场深度估计方法

摘要：光场相机可以通过单次曝光同时采集空间中光线的位置信息和角度信息，在深度估计领域具有独特优势。由于光场真实场景数据集的深度标签难以获取且精度不高，因此现有的光场深度估计方法都是依赖大量光场合成场景数据集进行训练。另外，合成数据集与真实数据集在图像特征分布上的差异，导致网络在合成数据集中学习到的子孔径图像与深度图之间的映射关系应用于真实数据集出现偏差，针对这些问题，提出了一种基于图像特征迁移的光场深度估计方法。该方法首先利用基于对抗学习的图像翻译网络，使得合成场景中心子孔径图像逼近真实场景图像的特征分布，并在图像翻译网络中实施多视图角度一致性约束，从而保证图像翻译前后不同视角子孔径图像之间的视差关系保持不变。其次，设计了多通道密集连接深度估计网络，其中多通道输入模块充分提取不同方向子孔径图像堆栈特征，并通过密集连接模块进行特征融合，提升了网络特征提取和特征传递的效率。最后，在光场合成数据集4D Light Field Benchmark和光场真实数据集Stanford Lytro Light Field上的实验结果表明，该方法MSE和BadPix指标相比于Baseline结果平均降低23.3%和8.6%，与现有的其他先进方法相比，该方法有效提升了深度估计的精度，而且在合成数据集和真实数据集上都显示出很好的鲁棒性，具有更好的泛化能力。

关键词:光场;深度估计;对抗学习;特征迁移;角度一致性; 密集连接;

Light Field Depth Estimation Method Based on Image Feature Transfer

LUO Shaocong ZHANG Xudong WANLe XIE Linfang LI Shuyu

School of Computer and Information, Hefei University of Technology Anhui Province Key

Laboratory of Industry Safety and Emergency Technology

Abstract：

Light field cameras can simultaneously collect the position information and angle information of light in space through a single exposure, which has unique advantages in the field of depth estimation. Since the depth labels of the light field real scene datasets are difficult to obtain and the accuracy is not high, the existing light field depth estimation methods rely on a large number of light field synthetic scene datasets for training. In addition, the difference in image feature distribution between the synthetic dataset and the real dataset leads to the deviation of the mapping relationship between the sub-aperture image and the depth map learned by the network in the synthetic dataset when applied to the real dataset. A light field depth estimation method based on image feature migration is proposed. The method firstly uses the image translation network based on adversarial learning to make the synthetic scene center sub-aperture image approximate the feature distribution of the real scene image, and implements the multi-view angle consistency constraint in the image translation network, so as to ensure the sub-apertures of different views before and after image translation. The disparity relationship between the images remains unchanged. Secondly, a multi-channel dense connection depth estimation network is designed, in which the multi-channel input module fully extracts the features of sub-aperture image stacks in different directions, and the feature fusion is performed through the dense connection module, which improves the efficiency of network feature extraction and feature transfer. Finally, the experimental results on the light field synthetic dataset 4D Light Field Benchmark and the light field real dataset Stanford Lytro Light Field show that the MSE and BadPix indicators of this method are reduced by an average of 23.3% and 8.6% compared with the Baseline results, which are comparable to the existing ones. Compared with other advanced methods, this method effectively improves the accuracy of depth estimation, and shows good robustness and better generalization ability on both synthetic and real datasets.

Keyword：

light field; depth estimation; adversarial learning; feature transfer; angle consistency; dense connections;

0 概述

光场深度估计作为一种重要的获取场景深度的方式，在虚拟/增强现实[1]、超分辨率重建[2,3]、3D场景重建[4,5]等领域具有重要的研究意义和广泛的应用场景。近年来，基于深度学习的光场深度估计方法，可以在控制计算成本的同时，也可以取得很好的估计精度，具有很高的执行效率。通常这类方法，需要大量的具有场景深度标签的光场图像用于训练。然而基于光场相机拍摄的光场真实场景数据集的深度图获取难度大，成本较高，而且得到的深度图结果也不够精确。与之相比，光场合成场景数据集的高精度深度图更加容易获取。因此目前大多数方法都是基于光场合成场景图像训练网络模型，其中由海德堡大学提供的4D Light Field Benchmark数据集[6]被广泛使用，并作为深度估计算法评价的标准。由于计算机仿真技术的局限性，通过3D建模软件模拟真实场景渲染出的光场合成场景图像，与光场相机获取的光场真实场景图像，在纹理、光照、阴影等方面存在差异。深度估计模型主要学习子孔径图像与深度图之间的映射关系[7]，当合成场景子孔径图像与真实场景子孔径图像的特征分布存在明显差异时，特征提取网络学习到的光场合成场景图像与深度标签的映射关系应用于光场真实场景图像与深度标签的映射会出现错误[8]。因此仅使用光场合成场景数据集训练的深度估计模型，直接应用在光场真实场景数据集上表现不佳，而且泛化能力较差。针对上述问题，本文提出了一种的基于图像特征迁移的光场深度估计方法。针对光场合成场景与真实场景单张子孔径图像特征分布之间的差异，设计了基于对抗学习的图像翻译网络（Image Translation Network），通过特征迁移模块（Feature Transfer module, FT）使得合成场景子孔径图像逼近真实场景子孔径图像的特征分布，实现单张子孔径图像由合成场景到真实场景的特征迁移。然而光场图像是一种类似于双目图像[9]的多视角图像，根据光场的几何特性，相邻视角子孔径图像之间具有一定的视差关系，因此本文引入多视图角度一致性约束模块（Multiview Angle Consistency Constraints module, MACC），保证单张子孔径图像特征迁移前后不破坏原有的视差关系。为充分利用光场结构信息，设计多通道密集连接深度估计网络（Multi-branch Dense Connection Depth Estimation Network），提取不同方向的子孔径图像堆栈的特征，再通过密集连接模块（Dense Connection module, DC）进行特征融合，最后得到估计的深度图。通过缩小光场合成场景与真实场景子孔径图像特征分布之间的差异，进而使得最终训练得到的模型应用于光场真实场景和光场合成场景均具有很好的鲁棒性和泛化性。具体来说，本文的主要贡献如下：

1）设计了一种基于对抗学习的图像翻译网络，学习真实场景子孔径图像的特征信息，缩小光场合成场景与真实场景子孔径图像特征分布之间的差异；

2）在图像翻译网络中引入MACC模块。根据光场的几何特性，结合中心视角深度图，为每个其他中心视图之间建立逐像素的对应关系，确保对不同视角子孔径图像进行特征迁移前后仍然保证不同视图之间的角度一致性；

3）利用多通道输入网络充分提取不同方向子孔径图像堆栈的特征信息，再通过DC模块进行特征融合，提升特征提取和特征传递效率；

4）利用光场图像特征迁移的方法，解决了光场真实场景深度标签难以获取以及单一合成场景图像训练的模型泛化性能较差的问题。大量的实验表明，本文提出的方法优于只在单一合成场景数据集上训练的先进方法。

1 相关工作

光场图像中包含丰富的场景信息，这使得对场景深度信息的挖掘成为可能。然而传统的光场深度估计方法一般先利用特定方法计算出场景的初始深度图，再设计优化框架结合局部平滑和全局优化细化初始深度图，但是这种方法泛化性能较差，而且时间计算成本较高。因而近年来，越来越多的方法借助深度学习技术，设计光场深度估计网络来提升估计效率。Heber和Pock[10]首次提出了一个卷积神经网络来学习4D光场图像之间的端到端映射，然后通过高阶正则化对弱纹理区域进行优化，获得更加精细的估计结果。Heber和Yu等人[11]在U-net编解码网络的基础上对网络进行改进，构建一个U形编码器和解码器，提出了EPI Volumes[12]的概念将水平或垂直方向的子孔径图像堆叠输入网络，从光场图像中提取几何信息，使用大量合成数据集训练网络，并以较低的计算成本生成高质量的结果；Luo和Zhou等人[13]预先提取水平方向和垂直方向的EPI-ptch图像块作为网络输入，将得到的初始深度图再通过全局优化算法优化，估计出逐像素点的深度值；Shin和Jeon等人[7]提出的方法通过多流输入网络减少光场图像冗余信息，利用数据增强方法扩充数据集，结合全卷积网络估计深度，该方法具有较高的运行效率和估计精度，并在4D Light Field Benchmark[6]上取得较好的成绩；Leistner等人[8]最新的研究结果通过对光场堆栈进行偏移，提高了有效的视差范围，改善了在大视差光场的深度估计的性能。随着网络结构的复杂化和网络层数的加深，现有的光场数据集难以支持大规模网络的训练，而一方面传统的数据增强方法难以有效的扩充光场真实场景样本，另一方面光场合成场景与真实场景图像在特征分布上的差异，导致在单一合成场景数据集上训练的方法泛化性能较差。因此本文基于图像特征迁移的方法，在保证角度一致性的基础上，使合成场景子孔径图像逼近真实场景子孔径图像的特征分布，扩充了训练网络的数据集。将多通道输入模块与DC模块结合，进一步提升估计精度，有效的解决了现有深度学习方法存在的问题。

2 本文方法

如前文所述，光场合成场景与真实场景子孔径图像特征分布之间存在差异，如果仅使用合成场景数据集训练的深度估计网络模型无法应用于真实场景。针对该问题本文设计了基于图像特征迁移的光场深度估计网络如图1所示，整个网络由两大子网络组成：图像翻译网络和多通道密集连接深度估计网络。图像翻译网络由图像特征迁移模块和多视图角度一致性约束模块两部分组成。图像特征迁移模块基于对抗学习的思想设计，目的是保证光场合成场景的单张子孔径图像通过特征迁移后学习到真实场景图像的分布特征；同时，为了保证图像特征迁移前后，不改变不同视角子孔径图像之间的视差关系，引入了多视图角度一致性约束，根据光场图像中不同视角子孔径图像之间的视差关系，由中心子孔径图像（中心视图）的深度图得出其他视角子孔径图像（其他视图）与中心视图之间的逐像素的映射关系。根据这种映射关系，保证图像翻译前后不破坏光场的几何结构。多通道密集连接深度估计网络通过多通道输入模块充分提取不同方向子孔径图像堆栈的特征，再利用密集连接模块进行特征融合，最终输出估计深度图。

2.1 图像翻译网络

图像翻译网络是为了让光场合成场景图像学习真实场景图像的特征分布，同时不破坏不同视角子孔径图像之间的视差关系。该网络由特征迁移模块和多视图角度一致性约束模块两个部分组成。为了便于描述，本文使用(u,v)表示对不同视图的索引，(x,y)表示每个视图中像素的索引。当u=v=0时，表示中心子孔径图像。

2.1.1 特征迁移模块

特征迁移FT模块基于对抗学习的思想[14,15]，通过循环对抗学习跨域样本映射，如图2中黄色区域所示。由于中心视图的所包含的场景信息最丰富[16]，因此征迁移模块只针对中心视图做特征迁移。在特征迁移模块的训练过程中，真实场景图像（目标域）生成器GS2R帮助合成场景图像（源域）捕获目标域特征，欺骗目标域鉴别器DR，生成具有目标域特征的逼真合成场景图像。源域生成器GR2S和源域鉴别器DS同理。这两个子网构成极大极小博弈，以循环对抗学习的方式进行优化，并在DR无法判断图像是否属于源域时GS2R达到收敛。

2.1.2 多视图角度一致性约束模块

通过特征迁移模块，可以使得单张光场子孔径图像逼近真实场景图像的特征分布，但是得到的子孔径图像阵列会出现像素失真和角度域不匹配问题，为此引入多视图角度一致性约束MACC模块。解决以上问题需要确定光场中其他视图与中心视图逐像素的对应关系，常用的光场标准数据集[6]只提供中心视图的深度图，所以根据公式(1)所示的深度与视差的转换关系[17]：

Δx=fDepthΔu(1)

其中f为焦距，Depth为像素点的深度值，Δx为视差值，Δu为基线距离。因此可以由深度图得到中心视图与其他视图的像素映射关系[18]，本文使用Du,v(x,y)表示中心视图与其他视图的视差关系。再利用光场几何特性通过逐像素匹配[19]，将各视图之间的相同位置告知网络。

如图2(a)所示，中心视图P0,0(x,y)根据视差图D0,0(x,y)映射得到坐标为(0,3)位置的视图P0,3(x,y)根据光场对极几何[20]，对满足条件的像素点按照公式(2)进行像素匹配(ϵ=1.2)：

∥(x+uD0,0(x,y),y+vD0,0(x,y))−(x',y')∥<ϵ(2)

(x',y')表示中心视图像素点映射到其他视图的对应点。由于视角的变化导致在中心视图中部分靠近物体边缘的区域出现与其他视图无映射关系的歧义点，如图2(a)中红色区域所示。因此为了解决歧义映射的问题，通过公式(3)计算对应的掩码置信图Cu,v(x,y)∈[0,1]，将在中心视图里无法找到的映射点设置为0，如图2(b):

Cu,v(x,y)=1−∥Pu,v(x,y)−T(P0,0,Du,v)(x,y)∥/3√(3)

其中，T(P0,0,Du,v)表示将中心视图P0,0根据视差关系Du,v扭曲到对应的其他视图，如公式(4)：

T(P0,0,Du,v)(x,y)=Pˆ0,0(x−uDu,v(x,y),y−vDu,v(x,y))(4)

Pˆ表示图像的双线性插值，并且所有像素值都假定在每个颜色通道的[0,1]范围内。因为掩码的存在，解决了当视图像素点之间不确定的映射关系或靠近物体边缘时不完美的映射关系等情况。

因此为了保证视图之间角度一致性的翻译，设计了多视图角度一致性约束网络，如图3所示。根据2.1.1节中所述，将特征迁移模块训练好的目标域生成器GS2R作为角度一致性约束模块的预训练模型拆分为编码器Encoder和解码器Decoder两个部分，并通过权值共享的双支路网络分别对中心视图P0,0和其他视图Pu,v进行编解码操作。双支路网络首先分别将P0,0和Pu,v编码生成中间特征图F0,0和Fu,v。将F0,0解码得到特征迁移后的中心视图P'0,0，而对于每个其他视图Pu,v，根据逐像素映射关系，将中心视图特征F0,0扭曲到对应的(u,v)视图特征，并使用对应位置的掩码置信图Cu,v(x,y)将扭曲后的特征与Fu,v进行特征融合，得到融合后的特征图F'u,v，如公式(5)：

F′u,v=Cu,v⊗T(F0,0,Du,v)+(1−Cu,v)⊗Fu,v(5)

然后将F'u,v解码得到特征迁移后的其他视图P'u,v。最后，对P'0,0实施与前面相似的扭曲操作，将结果与P'u,v计算视角一致性损失，如公式(6):

Ldisp=Cu,v⊗∥∥P′u,v−Tu,v(P′0,0,Du,v)∥∥(6)

通过网络反向传播视差损失，迭代更新编码器和解码器，直到网络收敛或达到最大迭代次数。

2.2 多通道密集连接深度估计网络

现有的工作已证明，多通道输入网络在光场深度估计任务上的有效性，如图4所示，本文保留[7]采用的多通道输入模块，将图像翻译网络输出的结果作为网络输入，分别将0°、45°、90°和 135°方向上的子孔径视图堆栈从4个通道输入网络。每个通道分别由三个全卷积块组成,每个全卷积块结构如图4(a)所示，预测局部特征块的逐像素视差。另外，由于光场图像的基线较窄，本文使用步长为1卷积核为2*2的卷积层，能够预测较小的视差值。再将多通道输入模块处理后的所有特征图，利用特征融合模块融合多层级视图特征[21]，将特征图变为之前的四倍。融合模块在文献[7]的基础上进行了改进，由五个以Dense Connection[22]为基础的Dense块组成，见图4中黄色区域。相较于传统的CNN卷积网络，Dense Connection有很多优势：每一层的输入来自前面所有层输出的组合，更有利于整合深层和浅层特征，加强了特征传递的效率，可以更好的提升训练模型的鲁棒性；训练深层网络时可以有效避免梯度消失，提升收敛速度。改进的基于Dense Connection模块的特征融合可以更高效的学习多通道输入模块所有特征图之间的关系。

Dense块除了最后一层的Transition都使用相同的“BN-ReLU-Conv”结构，如图4(b)，由于光场图像的窄基线特性，采用2*2的卷积核，步长为1，使用same-padding保证各层特征大小不变。为了将组合的特征进一步压缩融合更好地估计亚像素精度的视差值，最后一层使用Transition模块，结构如图4(c)，卷积核大小为1*1，步长为1。为了使得本文方法适用于不同分辨率下光场图像的深度估计任务，取消了池化层。

3 实验与分析

3.1 实验细节

实验分别在4D Light Field Benchmark合成场景数据集[6]和Stanford Lytro Light Field真实场景数据集[23]上验证深度估计的结果。合成数据集分为四个子集：Stratified、Test、Training和Additional，共28个精心设计的光场场景，每个场景由不同的物体、纹理和材质的精细结构组成。本文使用16个Additional场景作为前置图像翻译网络中特征迁移模块训练的源域数据，空间分辨率为512×512，角度分辨率为7×7；使用具有丰富的真实域特征的coco2014 Train数据集[24]作为目标域。将特征迁移模块训练完成的生成器GS2R作为MACC模块的预训练模型，并将其分解为编码器和解码器两个部分。学习率设置为1e-2，迭代次数设置为50 epochs。为了缓解数据不足、防止过拟合，在训练多通道密集连接的深度估计网络时将通过图像翻译网络处理后的合成场景数据集与未翻译的合成场景数据集共同作为输入。另外，本文使用多种数据增强方法[7]，包括视角偏移、图像旋转、缩放和反转等，将训练数据增加到原始来的288倍。

定量分析实验采用均方误差(Mean Square Error, MSE)和坏像素率(Bad Pixel, BP)两个指标对实验结果进行评估。均方误差用于描述结果的平滑度，均方误差越小，表明估计结果越好，定义如公式(7)：

MSE=∑x∈M (d(x)−gt(x))2|M|×100（7）

其中，gt(x)为真实深度标签，d(x)为算法估计的深度图，M为评估掩码。坏像素率用于描述估计结果的准确度，值越小，表示估计的结果精度越高，定义如公式(8)：

BadPix(t)=|{x∈M:|d(x)−gt(x)|>t}||M|（8）

其中，t表示视差误差的阈值，本文采用阈值t为0.07。

实验使用的服务器配置为：Intel Core i7-8700H @ 3.20Hz，RAM 16GB，Nvidia GTX1080ti*2，Ubuntu18.04操作系统。基于Python3.6，Tensorflow1.12环境训练网络。

3.2 消融实验

先前的工作[7]已经证明，在7×7的视角下，将0°、45°、90°和135°四个方向的子孔径图像堆叠输入到EPINET网络中，可以使EPINET获得最佳性能。因此本文将此设置的EPINET网络作为Baseline参考网络。表1展示的是添加本文各模块之后与Baseline的定量比较，从左到右依次为在Baseline参考网络的基础上加入DC模块；加入DC模块和FT模块；加入FT模块和MACC模块；加入DC模块、FT模块和MACC模块。从而定量分析本文网络各个部分的有效性。通过表1可以发现，加入DC模块后的网络相较于Baseline参考网络，MSE和BadPix分别平均降低了约11.4%和4.3%。但是网络在Baseline的基础上引入DC模块和FT模块后，两个指标均变差，网络的性能下降，原因在于不同视角子孔径图像之间存在一定的视差关系，通过对每张子孔径图像独立进行特征迁移的图像翻译网络后，破坏了光场的原有的几何结构，导致更坏的估计结果。然而，当FT模块与MACC模块相结合，网络呈现出更好的结果，有力的证明了MACC模块可以有效的保证图像翻译前后光场几何特性不变。

最后将引入FT模块和MACC模块的图像翻译网络和引入DC模块的多通道密集连接深度估计网络结合作为本文最终的网络结构。实验的定量结果表明，与Baseline参考网络相比，改进后的网络MSE和BadPix平均降低23.3%和8.6%。

图5展示了Baseline参考网络和改进网络定性比较的结果，Boxes场景表明(c)网络对遮挡区域的处理有所提升，(e)网络的表现最好；从Cotton场景可以看出(c)网络消除了(b)网络中出现的伪影，而(e)网络在边缘的细节处理更好，在弱纹理区域也具有较高的精确度；对于具有复杂背景和场景干扰的Sideboard场景，(e)网络很好的抑制了复杂纹理的干扰，并成功的估计出场景细节部分。由于(d)未加入MACC模块，特征迁移破坏了原有的光场结构，在所有场景中的表现都更差。

3.3 与其他方法对比

3.3.1 合成场景

在合成场景中，将本文方法与其他先进方法进行比较：EPINET[7]，EPI_ORM[19]，EPN-OS-GC[13]，OBER-cross[25]，SPO-MO[26]。表2和表3分别为本文方法与其他方法在4D Light Field Benchmark数据集八个测试场景下的BadPix和MSE定量指标结果（加粗为最优结果，下划线为次优结果）。可以看出，本文方法的整体估计精度优于其他方法，在大多数场景下获得了最优的结果，在少数场景下也取得了次优的结果。表4显示不同方法在不同测试场景下运行时间的对比，可以看出本文方法的运行效率大幅领先EPN-OS-GC、OBER-cross和SPO-MO这类传统方法，并且优于EPI_ORM这种先进的深度学习方法，仅与EPINET方法存在几乎可以忽略不计的微小差距。从定量比较的结果看出，本文方法具有较高的估计精度和计算效率，整体性能优于其他先进方法。

图6和图7是在4D Light Field Benchmark数据集上，本文方法与其他方法估计结果的定性比较，Boxes和Backgammon场景具有深度不连续的密集遮挡，Cotton和Dino场景包含了光滑的物体表面及弱纹理区域，从图中的视差结果可以发现，与其他方法相比本文方法可以精确的重构出场景光滑表面和深度不连续的区域；对于具有复杂背景和形状且深度变化较小的SideBoard场景，本文方法学习了复杂的真实场景的特征，对于复杂的合成场景也具有很好的泛化能力，保留了更多的场景细节以及清晰的物体边界。对于包含大量噪声的Dots场景，也在一定程度上抑制了噪声的影响，保留了细节。总体可以看出，本文方法在大多数场景下都获得了更理想的估计结果。

3.3.2 真实场景

真实场景使用Stanford Lytro Light Field数据集[23]测试, 使用Lytro Illum相机捕获光场图像，选择了其中五个场景进行测试，图8展示本文方法与EPINET、EPIShift这两种先进的有监督的深度学习方法在这些场景下的定性比较。光场真实场景数据集与合成场景数据集特征分布的不同，主要体现为：场景通常带有严重的图像噪声，物体表面纹理通常是非理想化的分布，而且场景深度不连续等，这些原因导致对于真实场景的深度估计任务非常具有挑战性。图8中(A)(B)是两个包含丰富的弱纹理区域的自然光场景，可以看到EPINET方法获取的深度图精细度不高，EPIShift方法的处理结果平滑过渡，而本文方法无论在弱纹理表面还是边缘处，结果都更为精准；(C)场景有深度不连续的简单遮挡，相比较于EPINET和EPIShift的结果，本文方法的估计结果精准度更好；(D)场景具有复杂的背景干扰且深度不连续，(E)场景光线的明暗对比度较高，从结果图上看，仅使用合成数据集训练的EPINET和EPIShift方法，无法精准分辨出这些自然场景下的干扰，而本文网络学习了大量真实场景的特征分布，可以发现本文方法能够更精准的过滤复杂的干扰背景，也可以很好的消除明暗差异大对结果的影响，具有更好的抗干扰能力。

综上所述，根据真实场景下的深度估计结果可以看出，与其他先进的深度学习方法相比，本文方法在光场图像真实场景下均获得了更精细的结果，有力地证明了本文方法在真实场景中的有效性和优秀的泛化性能。

4 结束语

本文提出了一种基于图像特征迁移的光场深度估计方法。基于对抗学习的思想设计一个前置的图像翻译网络，并对所有视图施加角度一致性约束，保证特征迁移前后不同视角子孔径图像的视差关系不发生改变。再利用多通道输入模块与密集连接模块相结合，提升特征融合和特征传递的效率，最后输出深度图。在光场数据集上的实验验证了本文方法的有效性，无论在合成场景还是具有挑战性的真实场景下，本文方法均可以估计精准的视差图。在接下来的工作中，我们将考虑进一步挖掘光场图像中丰富的场景几何信息，通过预先获取场景结构的先验信息进行语义分割，进一步提升的提升深度估计的精度。

参考文献

[1] Huang F C, Chen K, Wetzstein G. The light field stereoscope: immersive computer graphics via factored near-eye light field displays with focus cues[J]. ACM Transactions on Graphics (TOG), 2015, 34(4): 1-12.

[2] Wang Y, Liu F, Zhang K, et al. LFNet: A novel bidirectional recurrent convolutional neural network for light-field image super-resolution[J]. IEEE Transactions on Image Processing, 2018, 27(9): 4274-4286.

[3] Sun Q, Zhang S, Chang S, et al. Multi-Dimension Fusion Network for Light Field Spatial Super-Resolution using Dynamic Filters[J]. arXiv preprint arXiv:2008.11449, 2020.

[4] Kim C, Zimmer H, Pritch Y, et al. Scene reconstruction from high spatio-angular resolution light fields[J]. ACM Transactions on Graphics (TOG), 2013, 32(4): 1-12.

[5] Perra C, Murgia F, Giusto D. An analysis of 3D point cloud reconstruction from light field images[C]//2016 Sixth International Conference on Image Processing Theory, Tools and Applications (IPTA). IEEE, 2016: 1-6.

[6] Honauer K, Johannsen O, Kondermann D, et al. A dataset and evaluation methodology for depth estimation on 4D light fields[C]//Asian Conference on Computer Vision. Springer, Cham, 2016: 19-34.

[7] Shin C, Jeon H G, Yoon Y, et al. Epinet: A fully-convolutional neural network using epipolar geometry for depth from light field images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4748-4757.

[8] Leistner T, Schilling H, Mackowiak R, et al. Learning to think outside the box: Wide-baseline light field depth estimation with EPI-shift[C]//2019 International Conference on 3D Vision (3DV). IEEE, 2019: 249-257.

[9] 赵猛,金一丞,尹勇.立体显示中双目视差模型和深度感知研究[J].计算机工程,2011,37(17):271-273.

[10] Heber S, Pock T. Convolutional networks for shape from light field[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 3746-3754.

[11] Heber S, Yu W, Pock T. Neural epi-volume networks for shape from light field[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 2252-2260.

[12] Heber S, Yu W, Pock T. “U-shaped networks for shape from light field.” British Machine Vision Conference, 2016, 37:1-12.

[13] Luo Y, Zhou W, Fang J, et al. Epi-patch based convolutional neural network for depth estimation on 4d light field[C]//International Conference on Neural Information Processing. Springer, Cham, 2017: 642-652.

[14] Liu R, Yang C, Sun W, et al. Stereogan: Bridging synthetic-to-real domain gap by joint optimization of domain translation and stereo matching[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 12757-12766.

[15] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.

[16] 王程,张骏,高隽.抗高光的光场深度估计方法[J].中国图象图形学报,2020,v.25;No.296(12):2630-2646.

[17] Wanner S, Goldluecke B. Variational light field analysis for disparity estimation and super-resolution[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 36(3): 606-619.

[18] Chen D, Yuan L, Liao J, et al. Stereoscopic neural style transfer[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6654-6663.

[19] Li K, Zhang J, Sun R, et al. Epi-based oriented relation networks for light field depth estimation[J]. arXiv preprint arXiv:2007.04538, 2020

[20] Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4700-4708.

[21] 贾瑞明, 李阳, 李彤, 崔家礼, 王一丁. 多层级特征融合结构的单目图像深度估计网络[J]. 计算机工程, 2020, 46(12): 207-214.

[22] Godard C, Mac Aodha O, Brostow G J. Unsupervised monocular depth estimation with left-right consistency[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 270-279.

[23] Raj A S, Lowney M, Shah R. Light-field database creation and depth estimation[J]. Palo Alto, USA: Stanford University, 2016: 56-61.

[24] Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//European conference on computer vision. Springer, Cham, 2014: 740-755.

[25] Schilling H, Diebold M, Rother C, et al. Trust your model: Light field depth estimation with inline occlusion handling[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4530-4538.

[26] Sheng H, Zhao P, Zhang S, et al. Occlusion-aware depth estimation for light field using multi-orientation EPIs[J]. Pattern Recognition, 2018, 74: 587-599.