神经网络预报模型的过拟合研讨.pdf
文本预览下载声明
神经网络预报模型的过拟合研究*
金 龙 况雪源 黄海洪 覃志年 王业宏
( 广西气象减灾研究所 南宁 530022; 广西气候中心 南宁 530022;
南京气象学院 南京 210044)
摘 要
针对神经网络方法在预报建模中存在的 过拟合 (overfitting)现象和提高泛化性能 generalization
capability 问题 提出了采用主成分分析构造神经网络低维学习矩阵的预报建模方法 研究结果表明
这种新的神经网络预报建模方法 通过浓缩预报信息 降维去噪 使得神经网络的预报建模不需要进行
适宜隐节点数的最优网络结构试验 没有 过拟合 现象 并且与传统的神经网络预报建模方法及逐步
回归预报模型相比泛化能力有显著提高
关键词 神经网络 泛化性能 过拟合现象 预报建模
1 引言
20世纪90年代以来 国内外在气象学科中开展了很多有关神经网络预报建模和气候分析等
应用研究[1-5] 然而随着神经网络方法在大气科学领域应用研究的不断深入发现 人工神经网络方
法在实际业务天气预报应用中存在一个最重要的 瓶颈 问题 即在利用神经网络方法进行气象
预报建模时 对已知训练样本集的学习训练达到什么样的拟合精度 才能使预报模型对未知样本
具有最好的预报能力 该问题的研究不仅关系到在大气科学中能否进一步深入开展有关神经网络
方法的业务预报应用 并且也是目前人工神经网络应用理论研究中尚未得到很好解决的有关神经
网络模型的过拟合和泛化性能的最关键问题[67] 本文针对实际的气象预报问题 尝试从如何构造
一种能够全面反映预报因子与预报量关系的低维学习矩阵的 主动 性方法 来探讨神经网络的
泛化性能和过拟合现象
2 影响泛化性能的因子分析
2.1网络隐层节点
人工神经网络在众多学科的应用研究中已在理论上证明 一个三层的前馈网络能够实现任意
精度的连续函数映射 并且人们在神经网络的学习算法方面进行了大量的研究 提出了很多关于
前馈网络的改进学习算法 使得大多数有关问题的神经网络学习精度都能达到要求 但是在神经
网络的预报建模研究中最关键的问题是关于神经网络预报模型的泛化能力,它在天气预报问题中
就是神经网络天气预报模型根据训练样本建立预报模型后 对未参加学习训练样本 即独立样本
的预报能力 这显然是神经网络预报模型好坏及该方法能否应用于实际业务预报的核心问题 因
此 如何提高神经网络预报模型的泛化能力成为神经网络理论研究和实际应用研究最为重要的研
究课题 该问题研究的主要内容包括神经网络的网络结构 主要是适宜隐节点数的确定 和网络
结构的学习算法对泛化性能和过拟合现象的影响研究[8-11] 而一般关于网络结构的影响研究认
为网络结构增大 容易产生过拟合现象 使网络泛化性能下降 一般只要在网络收敛的条件下
*国家自然科学基金项目
1
小的网络结构泛化能力强 且训练速度快 并且认为 隐节点数应小于样本数 但是在隐节点数
小于样本数的情况下怎样确定适宜的隐节点数能使模型的泛化能力达到最大 至今没有很好的结
论[69 10] 为了寻找泛化性能好的适宜网络结构 一些研究工作提出了一些确定适宜隐节点数的
原则性计算公式[12]
n
k Ch (1)
i
i0
h n m a (2)
h log n (3)
2
其中k 为样本数 n 为输入层节点数 m 为输出
显示全部