前馈神经网络介绍04..doc
文本预览下载声明
4.15 网络修剪技术
问题是在保持良好性能的同时使网络的规模最小化。具有最小规模的神经网络具有更小的可能性去学习训练数据的伪特征或者噪音,这样可能对新的数据有更好的泛化。用如下两个途径中的一个来达到这个设计目标:
网络生长法,以一个小的多层感知器开始,小到能实现当前任务即可,否则增加一个新的隐含神经元或者一个新的隐含层。
网络修剪法,以一个很大的能解决当前问题的多层感知器开始,然后通过有选择性的和有规律的方式削弱或者消除某些突触权重来进行修剪。
讨论两种逼近,一种基于“正规化”的形式,另一种基于从网络中“删除”某些连接的形式。
复杂度正规化
设计一个多层感知器,实际上是对输入输出样本的物理现象建立一个非线性模型。由于网络的设计在本质上还是统计学的问题,需要在训练数据的可靠性和模型的适应度之间寻找一个适当的折中(亦即是,解决偏置方差两难选择的方法)。在这个问题上的监督学习过程,通过最小化表述如下的总体风险都可能实现这个折中:
(4.94)
在第一项中,是标准的性能度量准则,它同时依赖于网络(模型)和输入数据。在反向传播学习中,它定义为均方误差,该误差估计扩展到网络地输出神经元并且它针对所有训练样本;
第二项中的是复杂度的惩罚因子,它单独依赖于网络(模型);
为正规化参数,它代表着复杂度惩罚因子项关于性能度量项的相对重要性。
当=0,反向传播学习过程是非约束的;
?? 复杂度惩罚因子所得到的约束自身就可以具体确定网络,用另一种说法这就是训练样本是不可靠的。
在一般设置中,复杂度惩罚因子项的一个选择是第阶光滑积分
(4.95)
这里是模型实现的输入输出映射,是某个决定输入空间区域的权重函数,它表示了在这个输入空间上对函数光滑性要求的不同程度。这里的目标是使得关于输入向量第阶微分较小。我们选择越大,函数就变得越光滑(亦即是,更少的复杂度)。
三种不同(难度递增)的复杂度正规化方法。
权重衰减
(4.96)
权重消除 复杂度惩罚因子定义为
(4.97)
逼近光滑器 采用如下形式的复杂度惩罚因子项:
(4.98)
其中时输出层的权重,时隐含层中第个神经元的权重向量;幂定义为
对于全局光滑器
(4.99)
对于局部光滑器
其中是关于的微分的阶数。
基于Hessian矩阵的网络修剪
基本思想是利用误差表面的二次导数信息来得到网络复杂度和训练误差性能之间的折中方案。特别地,构造误差表面上的一个局部模型是为了解析地预测突触权重的扰动所造成的影响。这样一个模型结构的出发点是关于运行点附近使用台劳级数给出代价函数的局部逼近,表述如下:
(4.100)
其中?w是运行点的扰动,是处的梯度向量。Hessian 矩阵同样在点进行估计,用来表示它。
找到一组参数使得从多层感知器上删除它们而代价函数的值增长最小。为了在现实条件中解决这个问题,我们进行如下的逼近:
1.极值逼近。我们假设参数仅在训练过程收敛之后才被从网络中删除(亦即是,网络是被完全地训练的)。这个假设的含意就是参数的取值为误差表面上一个局部最小或者全局最小。此时梯度向量可以设为零并且公式(4.100)右边的项因而被忽略。
2.二次逼近。我们假设局部最小或者全局最小周围的误差表面是近似“二次的”。因此公式(4.100)中的更高次项同样可以被忽略。
在这两个假设之下,公式(4.100)被简单近似为
(4.101)
最优大脑损伤(Optimal Brain Damage, OBD)过程(LeCun等人,1990b)通过更进一步的假设简化了这个计算:H矩阵是一个对角阵。然而,在最优大脑外科(Optimal Brain Surgeon, OBS)过程(Hassibi等人,1992)中并没有进行这样的假设;因此,它包含了OBS过程作为一个特例。我们讨论OBS策略。
OBS的目标是使突触权重的其中之一为零以最小化公式(4.101)中给定的加速增长的。令代表这个特别的突触权重。这个权重的删除等于如下的条件成立
或者
(4.102)
其中是除了第个元素等于单位1之外其他所有元素均为零的单位向量。我们现在可以重申OBS的目标如下(Hassibi等人,1992):
最小化考虑了权重向量增长变化?w的二次形,使它满足约束条件为零,然后关于标示数求最小化。
这里进行了两个层次上的最小化,一个最小
显示全部