文档详情

常见的深度学习-CNN卷积神经网络.ppt

发布：2018-11-05约4.85千字共20页下载文档

文本预览下载声明

Convolutional Neural Networks 江南大学-数媒学院-许鹏 Outline Overview CNN-Overview 卷积神经网络是一种受到视觉感知机制启发的深度学习结构。1959年Hubel和Wiesel发现动物的视觉皮质细胞负责在感知域内探测光照，受其启发，1980年Kunihiko Fukushima提出了一种新型认知机并被认为是CNN的先驱。 1990年，LeCun发表了一篇奠定现在CNN结构的重要文章，他们构建了一个叫做LeNet-5的多层前馈神经网络，并将其用于手写体识别。就像其他前馈神经网络，它也可以使用反向传播算法来训练。它之所以有效，是因为它能从原始图像学习到有效的特征，几乎不用对图像进行预处理。然而由于当时训练数据量的缺乏以及计算能力的不足，LeNet-5无法在复杂问题上表现的很好，比如大规模图像分类以及视频分类处理。自2006年以来，又有很多方法被提出来以克服在训练 deep CNNs时遇到的困难。其中很重要的一个是AlexNet 网络，它和LeNet-5很相似，但是在图像分类任务上有了很大的提升。随着AlexNet的成功，又有很多新的神经网络被提出来以提升它的性能。 ResNet(2015)—champion of ILSVRC 2015 CNN-Overview 上述这些神经网络一个很重要的趋势就是deeper，其中ResNet的深度是AlexNet的20倍，是 VGGNet的8倍。随着深度的增加，网络能够更好的逼近非线性目标方程，并且能够学习到更加有效的特征。当然这也增加了模型的复杂度，使得模型很难训练并且容易过拟合。所以有很多方法被提出来用于解决CNNs的训练和过拟合问题。和传统的前馈神经网络类似，整个网络的模型有几种因素决定。我们传统的前馈神经网络隐藏层一般是全连接的，而CNN的隐藏层又分为convolutional layer，pooling layer和最后的 fully-connected layer，这些隐藏层的区别是CNN之所以为CNN的重要原因，而另外各个神经元激活函数的选择以及整个网络损失函数的选择都与FNN类似。下面我们主要讲解LeNet-5。 CNN的应用也很广泛，其中包括图像分类，目标检测，目标识别，目标跟踪，文本检测和识别以及位置估计等。 CNN-Overview 上面提到CNN和FNN很重要的差异就是隐藏层的差异，CNN有convolutional layer和pooling layer，然后和最后的fully-connected layer共同构成卷积神经网络。而中间的隐藏层的连接方式又有三个重要的思想： sparse connectivity and parameter sharing and equivariant representation convolution operation and pooling operation Convolution 右图就是一个2维卷积的示意图，这里因为是离散的卷积，所以可以直接把卷积理解为矩阵相乘，即两个矩阵相乘，一个是输入矩阵，一个是卷积核矩阵。输入矩阵一般都表示二维的输入图像，而卷积核其实可以理解为图像处理里面的算子，比如这些算子可以实现一些边缘检测或者高斯模糊的效果，那么其实卷积操作可以理解为对图像进行一些特征处理。如图所示，一个卷积操作就是指卷积核和同样大小的一个图像矩阵相乘，然后再向下或者向右滑动卷积核，执行下一个卷积操作。这样用卷积核在整个图像上面滑动一遍便生成了一个卷积层。 CNN的一个重要操作卷积是CNN的核心思想，就是这个卷积有效的提取了图像特征用于后面的图像识别。 Convolution 右图的卷积核大小是2乘以2的，这可以看成是一个Roberts边缘检测算子，和左面的Input中的 2*2矩阵做卷积运算相当于对点e的边缘检测。 Roberts算子是一种最简单的算子，它利用局部差分算子来寻找边缘信息，它采用对角线方向相邻两像素之差来近似梯度检测边缘。 -1 0 0 1 0 -1 1 0 这里的Roberts算子只是一个一阶算子，提取的边缘信息还很有限，还有其他的二阶算子，比如拉普拉斯算子。而且这里Roberts算子只提取了某个像素对角线的梯度，而没有提取垂直方向和水平方向的梯度，所以还有其他的算子用于提取多个方向梯度，比如Sobel算子，Prewitt 算子等。 Convolution 右图的卷积核大小是2乘以2的

显示全部

相似文档