机器不学习：CNN-RNN结合的3D物体识别分类

Pgwsunny

2018-08-18

关注关注

机器不学习 www.jqbxx.com : 深度聚合机器学习、深度学习算法及技术实战

原文：Convolutional-Recursive Deep Learning for 3D Object Classification

总体思想：

1、同时使用CNN-RNN进行图像特征的学习，对RGB-D图像进行分类

2、使用单层CNN提取图像低维特征，使用这种方法的原因在于这种低维特征能够允许物体的部分形变，从而具有一定的鲁棒性。将单层CNN的输出作为输入输入至RNN中，让RNN去学习特征间的组合关系（应该也可以理解为是RNN学习到的隐关系）

3、尝试探索新的用于机器视觉的深度学习架构，在之前的用于自然语言处理和计算机视觉中，尝试使用（1）对每种输入采取不同树结构（2）对单层RNN使用一套权重（3）严格限制树的结构为二维（4）使用反向传播训练RNN。在本文中使用固定树结构，允许n进制树。

4、使用非监督学习的方法学习滤波器权重。

5、总体结构示意图（引自原文）

机器不学习：CNN-RNN结合的3D物体识别分类

左侧为RGB图像，右侧为深度图像。首先使用K个滤波器进行卷积操作，将卷积层输出结果按序输入至RNN中。这里有一点不明白，就是为什么CNN和RNN的块输入顺序不同。

Convolutional-Recursive Neural Networks

1、非监督学习CNN滤波器

实现方法，首先将RGB和深度图像的patch分别进行提取放入到两个集合内，而后分别进行归一化和白化。对这些预处理过的patch使用k-means进行聚类，下图为进行聚类后得到的结果（引自原文）

机器不学习：CNN-RNN结合的3D物体识别分类

2、单层CNN

使用单层CNN结构是为了使提取的特征具有平移不变性。使用了what is the best multi-stage architecture for object recognition的结构，并且加入了矫正和LCN（局部对比度归一化，用于在一个feature map中实现对比特征）。

使用K个filter，大小为dp，进行卷积操作，然后再使用size为dl，stride为s进行平均池化。最终得到一个K×r×r的3D矩阵为输出。

3、Fixed-Tree Recursive Neural Networks

本文中使用的结构是一个固定的树结构，叶节点为K维向量（来自于CNN池化后的结果），为了方便理解，画了两个示意图（字略丑，凑合看）第一个就是经池化后从CNN输出的结果，第二张是k为128，block大小为3×3的拼接。

机器不学习：CNN-RNN结合的3D物体识别分类

整个部分的目的就是为了提取图像的隐特征，并且最终输出的结果是一个k维的向量。每一步的操作都类似于金子塔，其计算方式如下，W为权重，维度为K×b^2K

机器不学习：CNN-RNN结合的3D物体识别分类

在实现过程中，第一个matrix P1的数量应该为（r/b）^2个，其中r为经过CNN处理后的输入图像的大小，b表示block的大小。从X到P1的合并就使用上述公式，对将P1合并为P2同样也使用相同的方法，直至最后只剩下一个P矩阵。使用后向传播，最小交叉熵进行训练。下图为合并过程示意图，摘自原文。

机器不学习：CNN-RNN结合的3D物体识别分类

4、Multiple Random RNNs

对于3D矩阵的输入，可以使用N个RNN，每个RNN都输出K维向量，然后将这N个输出进行连接，作为softmax分类器的输入。实验表明即使RNN使用random weight，仍能够获得较高质量的特征向量。

rnn cnn深度学习 3d

安科网

机器不学习：CNN-RNN结合的3D物体识别分类

Pgwsunny

机器不学习 www.jqbxx.com : 深度聚合机器学习、深度学习算法及技术实战

Pgwsunny

相关推荐

浅谈CNN和RNN

CNN与RNN比较与组合

CNN、RNN、GAN都是什么？终于有人讲明白了

深度学习面试题32：循环神经网络原理(RNN)

RNN 梯度消失/爆炸问题的解决方法

吴恩达《深度学习》第五门课（1）循环序列模型（RNN）

【DL-3】循环神经网络（RNN）

抽象理解切片递归神经网络(SRNN)的结构

浅谈Tensorflow 动态双向RNN的输出问题

RNN循环神经网络学习——概述

tensorflow python api

机器学习实验笔记

序列模型简介——RNN, Bidirectional RNN, LSTM, GRU

GIF动画解析RNN，LSTM，GRU

如何深度理解RNN？——看图就好！

机器学习研究人员需要了解的8个神经网络架构（下）

从RNN到LSTM，性能良好的神经网络到底是如何工作的？

学习笔记CB010:递归神经网络、LSTM、自动抓取字幕

（一）线性循环神经网络（RNN）

深度学习中tensorflow框架的学习

Pgwsunny