文档详情

常见的深度学习-CNN卷积神经网络.ppt

发布:2018-11-05约4.85千字共20页下载文档
文本预览下载声明
Convolutional Neural Networks 江南大学-数媒学院-许鹏 Outline Overview CNN-Overview 卷积神经网络是一种受到视觉感知机制启发的深度学习结构。1959年Hubel和Wiesel发现动物 的视觉皮质细胞负责在感知域内探测光照,受其启发,1980年Kunihiko Fukushima提出了一种 新型认知机并被认为是CNN的先驱。 1990年,LeCun发表了一篇奠定现在CNN结构的重要文章,他们构建了一个叫做LeNet-5的多 层前馈神经网络,并将其用于手写体识别。就像其他前馈神经网络,它也可以使用反向传播 算法来训练。它之所以有效,是因为它能从原始图像学习到有效的特征,几乎不用对图像进 行预处理。然而由于当时训练数据量的缺乏以及计算能力的不足,LeNet-5无法在复杂问题上 表现的很好,比如大规模图像分类以及视频分类处理。 自2006年以来,又有很多方法被提出来以克服在训练 deep CNNs时遇到的困难。其中很重要的一个是AlexNet 网络,它和LeNet-5很相似,但是在图像分类任务上有了 很大的提升。随着AlexNet的成功,又有很多新的神经网 络被提出来以提升它的性能。 ResNet(2015)—champion of ILSVRC 2015 CNN-Overview 上述这些神经网络一个很重要的趋势就是deeper,其中ResNet的深度是AlexNet的20倍,是 VGGNet的8倍。随着深度的增加,网络能够更好的逼近非线性目标方程,并且能够学习到 更加有效的特征。当然这也增加了模型的复杂度,使得模型很难训练并且容易过拟合。所 以有很多方法被提出来用于解决CNNs的训练和过拟合问题。 和传统的前馈神经网络类似,整个网络的模型有几种因素决定。我们传统的前馈神经网络 隐藏层一般是全连接的,而CNN的隐藏层又分为convolutional layer,pooling layer和最后的 fully-connected layer,这些隐藏层的区别是CNN之所以为CNN的重要原因,而另外各个神经 元激活函数的选择以及整个网络损失函数的选择都与FNN类似。下面我们主要讲解LeNet-5。 CNN的应用也很广泛,其中包括图像分类,目标检测,目标识别,目标跟踪,文本检测和 识别以及位置估计等。 CNN-Overview 上面提到CNN和FNN很重要的差异就是隐藏层的差异,CNN有convolutional layer和pooling layer,然后和最后的fully-connected layer共同构成卷积神经网络。而中间的隐藏层的连接 方式又有三个重要的思想: sparse connectivity and parameter sharing and equivariant representation convolution operation and pooling operation Convolution 右图就是一个2维卷积的示意图,这里因为是 离散的卷积,所以可以直接把卷积理解为矩阵 相乘,即两个矩阵相乘,一个是输入矩阵,一 个是卷积核矩阵。输入矩阵一般都表示二维的 输入图像,而卷积核其实可以理解为图像处理 里面的算子,比如这些算子可以实现一些边缘 检测或者高斯模糊的效果,那么其实卷积操作 可以理解为对图像进行一些特征处理。 如图所示,一个卷积操作就是指卷积核和同样 大小的一个图像矩阵相乘,然后再向下或者向 右滑动卷积核,执行下一个卷积操作。这样用 卷积核在整个图像上面滑动一遍便生成了一个 卷积层。 CNN的一个重要操作卷积是CNN的核心思想, 就是这个卷积有效的提取了图像特征用于后 面的图像识别。 Convolution 右图的卷积核大小是2乘以2的,这可以看成是 一个Roberts边缘检测算子,和左面的Input中的 2*2矩阵做卷积运算相当于对点e的边缘检测。 Roberts算子是一种最简单的算子,它利用局部 差分算子来寻找边缘信息,它采用对角线方向 相邻两像素之差来近似梯度检测边缘。 -1 0 0 1 0 -1 1 0 这里的Roberts算子只是一个一阶算子,提取的 边缘信息还很有限,还有其他的二阶算子,比 如拉普拉斯算子。而且这里Roberts算子只提取 了某个像素对角线的梯度,而没有提取垂直方 向和水平方向的梯度,所以还有其他的算子用 于提取多个方向梯度,比如Sobel算子,Prewitt 算子等。 Convolution 右图的卷积核大小是2乘以2的
显示全部
相似文档