文档详情

深度学习案例教程教案8.3正则化方法.docx

发布：2025-02-27约2.26千字共4页下载文档

文本预览下载声明

03正则化方法

（p13）下面我们来学习正则化。那什么是正则化呢？这是一种为了解决深度学习中过拟合问题的技术。所以要学习正则化，我们就要先理解什么是过拟合。过拟合指的是模型在训练数据上表现良好，但在新数据上表现不佳的现象。

（p14）举个例子说明，深度学习模型就好比一个学生，模型训练就好比学生学习，数据集就好比给学生练习的习题。模型通过数据来训练优化参数，学生通过做习题来提升自己。深度学习中，数据集将为分为训练集和测试集。训练集数据来调整模型参数，调整完了之后，我们肯定要看看这个模型的怎么样，是否能够正确的预测样本，那么我们就需要给他测试一下。但是测试我们不能用训练的数据测试模型，因为这些样本模型都已经看过了，那么很可能给出的答案都是正确的，但是如果给他一个新的样本，没见过的样本，那就预测错了。同理，学生学习的时候是给他练习题做，考试的时候呢，就不能给他完全一样的题目做，而是需要换一些类似的题目，来验证他是否真的掌握这些知识。

那什么是过拟合呢？如果你设计的神经网络参数过多，那在训练的时候，他可能能完全正确的区分训练集，也就是在训练集上面准确非常高，但是在测试的数据集上面准确率非常低。这个神经网络就好比一个记忆力非常强的学生，他能够记住所有做过的题目，但是他的理解力又不够，只能做到死记硬背，于是考试的时候，遇到新的没做过的题目，就做不出来了。这就是过拟合的问题。

（p15）为了避免过拟合，我们需要一种方法来减少模型的复杂性，并使其更具泛化能力。正则化就是一种常用的方法，它可以帮助控制模型的复杂性，防止过拟合。

正则化是通过在模型的损失函数中引入额外的惩罚项来控制模型的复杂性，这个惩罚项通常与模型的参数相关，可以限制参数的取值范围或者说降低参数的绝对值。正则化的目标是在最小化训练数据的损失的同时，尽量减小模型的复杂性，从而提高模型的泛化能力。

正则化可以应用于各种深度学习的模型和任务中，特别是在有限的训练数据情况下。它常用于神经网络、线性回归、逻辑回归等模型中，以减少模型的过拟合风险。

（p16）那么我们来看一下正则化常见的几种方法。

第一种是L1正则化L1。Regulation。它是通过在损失函数中加入参数的绝对值之和，作为惩罚项来控制模型的复杂性，它倾向于使一些参数变为零，从而实现特征选择的效果。L1正则化可以用于特征选择、稀疏表示等任务。

那第二个方法是L2正则化。那它是通过在损失函数中加入参数的平方和，作为惩罚项来控制模型的复杂性。L2正则化可以防止参数过大并使参数接近于零。它通常比L1正则化更常用，因为它计算简单且有平滑的解。

（p17）第三种方法，dropout方法，Dropout指暂时丢弃一部分神经元及其连接。随机丢弃神经元可以防止过拟合，同时高效地连接不同网络架构。神经元被丢弃的概率p可以自己规定，减少神经元之间的共适应。隐藏层通常以0.5的概率丢弃神经元。使用完整网络对所有2的n次个dropout神经元的样本平均值进行近似计算。Dropout显著降低了过拟合，同时通过避免在训练数据上的训练节点提高了算法的学习速度。

第四种方法是DropConnect，DropConnect是另一种减少算法过拟合的正则化策略，是Dropout的一般化。在DropConnect的过程中，需要将网络架构权重的一个随机选择子集，设置为零，取代了在Dropout中对每个层，随机选择激活函数的子集，设置为零的做法。由于每个单元接收来自过去层单元的随机子集的输入，DropConnect和Dropout都可以获得有限的泛化性能。DropConnect和Dropout相似的地方在于它涉及在模型中引入稀疏性，不同之处在于它引入的是权重的稀疏性而不是层的输出向量的稀疏性。

（p18）最后一种方法叫做早停法。早停法可以限制模型最小化代价函数，所需的训练迭代次数。早停法通常用于防止，训练中过度表达的，模型泛化性能差的问题。如果迭代次数太少，算法容易欠拟合，而迭代次数太多，算法容易过拟合。早停法通过确定迭代次数解决这个问题，不需要对特定值进行手动设置。

我们以这张图片为例，假设这是一个简单的分类任务，我们把数据集分成训练集和测试集。然后模型进行一轮一轮的训练，每一轮训练完，我们都测一下当前模型在训练集上的准确率以及在测试集上的准确率。这个图中，横坐标是训练的轮数epoch，纵坐标是准确率accuracy。我们把模型在每一轮训练集上的准确率连成一条线，就是图中的红色的线TrainSetaccuracy，对应蓝色的线就是测试集准确率连成的线TestSetaccuracy。因为训练集的数据是不断的拿来训练调整参数的，模型会越来越适应这些数据，所以准确率也会不断提高，所以图中红色的线，会一致在上升。但是，

显示全部

相似文档

深度学习案例教程 教案8.3正则化方法.docx

深度学习案例教程教案8.3正则化方法.docx