三维形状数据的深度特征表示
摘要
三维形状特征表示是三维目标识别、三维人脸识别以及三维模型检索等研究的基础,在机器人、AR/VR、人机交互、遥感测绘等领域有着广泛的应用前景。近三年来,针对三维形状数据深度特征表示的研究得到了越来越多的关注。本文对该方向所面临的挑战进行了分析,并对现有算法进行了简要综述。
引言
随着三维成像技术的快速发展,低成本小型化三维传感器近年来大量涌现并逐步配备到移动设备中,典型代表如Kinect,Realsense和Google Tango。三维传感器能很好地捕获场景三维信息,使智能设备更好地感知和理解周围环境,在机器人、AR/VR、人机交互、遥感测绘等多个领域具有广阔的应用前景。
图1 三维传感器的应用场景
三维传感器获得的数据是物体三维形状的直观反映,其可以表示为深度图、点云或者网格等多种形式。其中,深度图只能表示物体在单个视点下的距离信息,因此常称为2.5维数据,而点云和网格能表示物体在多个视点下的信息,因此常称为三维形状数据。有效的三维形状特征表示是实现点云配准、三维模型重建、三维形状检索、三维目标识别、三维生物特征识别、场景语义分割、以及定位制图等视觉任务的基础。
一个好的特征应该具有良好的鉴别力、稳健性、不变性以及计算效率。自上世纪90年代开始,三维形状特征提取算法经历了20余年的发展,逐步从手工特征过渡到基于深度学习的特征。手工特征通常通过提取三维形状几何属性的空间分布或直方图统计等方法得到,典型代表如Spin Image、FPFH、Heat Kernel Signature (HKS)、MeshHOG、RoPS等[1]。但这类方法依赖于研究者的领域知识,无法获得适用于某一特定任务的最优三维形状特征表示。近年来,随着三维形状数据集的不断完善,深度学习模型开始应用于三维形状特征表示,并产生了大量的研究成果。本文旨在简要综述该领域面临的主要挑战,研究进展以及潜在研究方向。
一、面临的挑战
相对于二维图像领域,深度学习模型在三维形状上的研究起步较晚,仅在近三年取得了较大的进展。该领域面临的主要问题如下。
1.1 三维形状的结构化表示
图像是结构化的,可以表示为二维平面上的一个矩阵,但三维点云和网格都是非结构化的,不能直接输入到深度神经网络中。因此,采用深度学习模型首先要解决三维形状的结构化表示问题。主要思路包括:1)在三维形状上手工提取低级特征,再采用深度学习模型提取高级特征;2)将三维点云或网格转化为系列二维图像,再采用深度学习模型提取特征;3)将三维形状体素化得到结构化表示,再构建三维深度学习模型提取特征;4)设计能适应原始三维数据特点的深度学习模型。
1.2 公共数据集较小
相比于ImageNet等千万量级的二维图像数据集,传统的三维形状数据集很小。近年来发布的较大的数据集包括用于形状分类与检索的ModelNet和ShapeNet。ModelNet包含了来自662类的127915个三维形状,其子集Model10包含了来自10类的4899个三维形状,ModelNet40包含了来自40类的12311个三维形状。ShapeNet包含了约300万个形状,其子集ShapeNetCore包含了来自55类的51300个形状。较小的数据集对深度学习模型的设计与训练提出了更高要求。
1.3 神经网络运算量大
由于三维形状比二维图像在空间中多了一维信息,因此在保持相同空间分辨率的前提下,神经网络的运算量比图像大很多。比如,即使将三维形状采样为30×30×30的体素,其运算量已相当于165×165的图像,而实际上分辨率为30×30×30的体素对形状的表示是非常粗糙的。因此,如何既能获得精细的三维形状表示,又能将运算量控制在可接受的范围内,是一个富有挑战的问题。
1.4 物体姿态变化
由于三维物体的姿态是任意的,因此如何使得学习到的特征具有对姿态的不变性也是设计深度学习模型时需要考虑的问题。典型思路包括在预处理中对输入数据进行姿态归一化,或者在神经网络中加入Max-Pooling等操作以消除姿态的影响。
二、现有方法分类
依据不同的数据表示方式,现有的三维形状深度特征表示方法可以分为:基于手工特征的方法、基于投影图像的方法、基于三维体素的方法以及基于原始数据的方法。
2.1 基于手工特征的方法
这类方法首先在三维形状上提取手工特征,进而将这些特征作为深度神经网络的输入,用以学习高层特征表示。其优势在于可以充分利用现有的低层特征描述子及深度学习模型。
比如,Bu等人[2]首先将热核特征和平均测地距离等构成的低层特征通过Bag-of-Feature模型转化为中层特征,接着采用深度置信网络(DBN)从中层特征中学习高层特征表示,并成功应用于三维形状检索与识别。Xie等人[3]首先提取三维形状Heat Kernel Signature特征的多尺度直方图分布作为自编码机的输入,然后在每个尺度上训练一个自编码机并将多个尺度隐含层的输出连接得到特征描述子,并在多个数据集上测试了该方法用于形状检索的有效性。
这类方法的缺陷在于,其仍然依赖手工特征的选择与参数优化,因此在某种程度上损失了深度学习的优势,无法从根本上克服手工特征存在的问题。
2.2 基于投影图像的方法
这类方法首先将三维形状投影到二维图像空间,进而在二维图像上采用深度学习模型进行特征学习,其优势在于:1)可以充分利用二维图像领域性能优越的网络架构;2)存在海量图像数据供深度学习模型进行预训练。
比如,Su等人[4]首先获得三维形状在12个不同视点下的投影图,进而采用VGG-M卷积神经网络学习各个视点下投影图的特征,最后将多视点下的特征进行池化并送入下一个CNN网络中得到最终的形状特征,其网络结构如图2所示。其第一级CNN网络采用ImageNet进行预训练并利用三维形状的二维投影图进行精调,实验结果表明多视点图像能获得比单视点图像更好的性能。Shi等人[5]通过沿主轴方向进行圆柱投影将三维形状转化为多个全景图,进而利用CNN从全景图中学习特征表示。由于在卷积层和全连接层之间加入了Max-Pooling操作,因此特征具有对绕主轴旋转的不变性。Sinha等人[6]将三维形状参数化到球形表面,进而将球形表面投影到八面体后展开成二维平面,并采用主曲率或HKS在平面的分布获得二维图像,最后采用CNN网络从二维图像中学习特征表示。Kalogerakis等人[7]在不同视点及尺度下获得三维形状的系列阴影图(Shaded Image)和深度图,进而采用全卷积网络(FCN)进行特征学习。
图2 用于三维形状识别的3D CNN网络结构图[4]
虽然这类方法通过变换能一定程度地保留三维物体的形状信息,但变换过程本身改变了三维形状的局部和全局结构,使得特征鉴别力下降。此外,将三维形状进行投影损失了大量的结构信息,且这类方法通常要求三维形状在竖直方向上进行了对齐。
2.3 基于三维体素的方法
这类方法将三维形状视为三维体素网格中的概率分布,从而将其表示为二值或实值的三维张量。图3给出了椅子模型在不同分辨率下的三维体素表示。这类方法的优势在于三维体素完整保留了三维形状信息,有利于提高特征的鉴别力。
图3 椅子模型在不同分辨率下的三维体素表示[11]
比如,Wu等人[8]将三维形状表示为二值概率分布,若体素在三维表面内则其值为1,否则为0,并采用卷积深度置信网络(CDBN)学习三维体素与标签之间的联合分布。Xu等人[9]采用定向搜索对3D ShapeNets进行优化以减少CNN网络的参数数量并提高分类精度。Xu等人[10]则把三维体素的每一层抽取出来组合成一个二值图像输入到CNN网络中进行特征学习。为进一步降低计算量,Li等人[11]将三维形状表示成体素场(Volumetric Fields)以克服三维体素表示的稀疏性问题,并采用一个场探索滤波器(Field Probing Filter)取代CNN中的卷积层来学习特征。Qi等人[12]系统比较了基于多视点投影和基于三维体素的方法,并通过增加辅助学习任务、多姿态数据增广与池化融合等来提高三维形状分类的性能。此外,Wu等人 [13]采用体素卷积网络和生成对抗式网络从概率空间中生成三维形状,其通过非监督学习得到的特征能获得很好的三维目标识别性能。
但是,这类方法也面临一些挑战,如:1)为使得网络训练不过于复杂,三维体素的分辨率不能太高(通常为30×30×30),而较低的分辨率限制了所学特征的鉴别力;2)三维形状表面所占的体素比例不高,使得体素化结果较稀疏,因此需要设计合理的网络以避免大量乘0或者为空的运算。
2.4 基于原始数据的方法
这类方法针对三维形状数据的特点设计特定的神经网络输入层,使得网络能很好地应对三维形状数据非规则化的问题。
对于网格表示,Han等人[14]提出了一种Mesh卷积受限玻尔兹曼机(MCRBM)以实现三维形状的非监督特征学习。该方法首先在三维形状上均匀放置固定点数的节点,并在这些节点上用局部函数能量分布(LFED)来表达三维形状局部区域的几何和结构信息,进而采用卷积深度置信网络来学习高层特征。Han等人[15]还提出了一种圆形卷积受限玻尔兹曼机(CCRBM)来学习三维局部区域的几何和结构信息。该方法首先将局部区域上的点投影到该区域中心的切平面上并获得投影距离分布(PDD)特征,进而采用傅里叶变换系数获得旋转不变的特征,最后采用卷积受限玻尔兹曼机学习高层特征。
对于点云表示,Qi等人[16]认为解决输入点云的无序问题有三种解决思路: 1)将输入点云进行排序,但在高维空间中难以确保排序结果的稳定性;2)将输入点云看作一个序列去训练RNN网络,并采用不同排列组合得到的点云作为增广数据训练RNN网络,但对于包含大量点的点云来说这一方法并不能获得很好的不变性;3)采用一个对称函数融合每个点的信息,该对称函数以所有点作为输入但输出一个对点序不变的向量。Qi等人[16]采用第三种思路,以多层感知网络及Max-Pooling来近似该对称函数,通过训练获得对点序不敏感的特征表示。该方法被成功应用于三维形状分类、物体部件分割以及语义场景分割。
三、未来发展方向
相对于二维图像而言,对三维形状的深度特征表示研究才刚刚起步。随着三维成像传感器的进一步普及,三维形状特征学习及相关应用的研究将得到更多关注。在这一领域,依然有很多方向值得挖掘,比如:非刚性三维形状的特征学习;大规模点云的特征学习,特别是测绘制图和自动驾驶场景下的点云实时特征学习;以及遮挡和背景干扰下的三维目标检测与识别。
参考文献
[1]. Y. Guo, M. Bennamoun, F. Sohel, M. Lu, J. Wan. 3D object recognition in cluttered scenes with local surface features: a survey IEEE PAMI, 36: 2270-2287, 2014
[2]. S. Bu, Z. Liu, J. Han, J. Wu, R. Ji. Learning High-Level Feature by Deep Belief Networks for 3-D Model Retrieval and Recognition. IEEE TMM, 16(8): 2154-2167, 2014
[3]. J. Xie, G. Dai, F. Zhu, E. Wong, Y. Fang. DeepShape: Deep-Learned Shape Descriptor for 3D Shape Retrieval. IEEE TPAMI, 2016
[4]. H. Su, S. Maji, E. Kalogerakis, E. Learned-Miller. Multi-view Convolutional Neural Networks for 3D Shape Recognition, ICCV, 2015
[5]. B. Shi, S. Bai, Z. Zhou, X. Bai. DeepPano: Deep Panoramic Representation for 3-D Shape Recognition. IEEE Signal Processing Letters, 22: 2339-234, 2015
[6]. A. Sinha, J. Bai, K. Ramani. Deep Learning 3D Shape Surfaces Using Geometry Images. ECCV, 223-240, 2016
[7]. E. Kalogerakis, M. Averkiou, S. Maji, S. Chaudhuri. 3D Shape Segmentation with Projective Convolutional Networks. arXiv preprint arXiv:1612.02808, 2016
[8]. Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang. 3D ShapeNets: A Deep Representation for Volumetric Shapes, CVPR, 1912-1920, 2015
[9]. X. Xu, S. Todorovic. Beam Search for Learning a Deep Convolutional Neural Network of 3D Shapes. arXiv preprint arXiv:1612.04774, 2016
[10]. X. Xu, D. Corrigan, A. Dehghani, S. Caulfield, D. Moloney. 3D Object Recognition Based on Volumetric Representation Using Convolutional Neural Networks. International Conference on Articulated Motion and Deformable Objects. 147-156, 2016
[11]. Y. Li, S. Pirk, H. Su, C. R. Qi, L. J. Guibas. FPNN: Field Probing Neural Networks for 3D Data. NIPS, 307-315, 2016
[12]. C. R. Qi, H. Su, M. Niessner, A. Dai, M. Yan, L. J. Guibas. Volumetric and Multi-View CNNs for Object Classification on 3D Data, arXiv, 2016
[13]. J. Wu, C. Zhang, T. Xue, W. T. Freemanand, J. B. Tenenbaum. Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling. Advances In Neural Information Processing Systems, 2016
[14]. Z. Han, Z. Liu, J. Han, C. M. Vong, S. Bu, C. L. P. Chen. Mesh Convolutional Restricted Boltzmann Machines for Unsupervised Learning of Features With Structure Preservation on 3-D Meshes. IEEE TNNLS, 2016
[15]. Z. Han, Z. Liu, J. Han, C. M. Vong, S. Bu, X. Li. Unsupervised 3D Local Feature Learning by Circle Convolutional Restricted Boltzmann Machine. IEEE TIP, 2016.
[16]. C. R. Qi, H. Su, K. Mo, L. J. Guibas. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. arXiv preprint arXiv:1612.00593, 2016.