回归分析在空气质量数据的校准[1]中的应用.docx
回归分析在空气质量数据的校准[1]中的应用
摘要:本文用多元回归分析的方法,对自建点空气质量数据进行数据挖掘,进而对导致自建点数据与国控点数据造成差异的因素进行分析,可以为自建点数据采集改进,提供可靠依据。
关键词:气象参数;AQI;回归分析
环境空气质量监测和信息发布能力是象征一个城市环境管理水平的重要手段,也是政府为改善城市环境空气质量和保护市民身体健康的关键载体,所以对数据的准确性提出了很高的要求。在数据的采集中,国控点的监测数据较为准确,但布控点较少、发布时间滞后且花费较大。自建点设的微型空气质量检测仪所监测的项目比国控点监测的项目多,但因为所使用的电化学气体传感器本身问题(在长时间使用后产生零点漂移和量程漂移),非常规气态污染物(气)浓度干扰及天气因素的影响使自建点采集的数据与国控点采集的数据存在差异,数据的准确性不如国控点,我们需要利用国控点每小时的数据对国控点近邻的自建点数据进行校准。
一、对问题的总体分析:
自建点数据和国控点数据差异,是由系统误差和偶然误差产生,系统误差包括零点漂移和量程漂移误差,偶然误差包括气象参数和非常规气态污染物浓度对传感器的交叉干扰。首先考虑气象参数产生的误差,再考虑污染物浓度对传感器的交叉干扰和系统误差。
二、模型的建立与求解
考虑气象参数对自建点和国控点差异的影响,首先利用已得到的传感器的日均监测气象参数(温度、湿度、风速、气压、降水)首先建立线性回归模型:
Linear(线性):
用拟合优度和方差衡量与相关程度:
的计算方法[2]为:
其中,介于之间,越接近1,回归拟合效果越好,称为复相关系数通常才认为相关关系成立。
方差相应的计算公式为:
分别对自建点“两尘四气”中的数据用MATLEB软件进行线性回归分析(附录2),分别得到回归模型的R2、如下表1所示:
表1线性回归模型分析表
0.4724
0.6369
0.1405
0.4320
0.2353
0.4885
8.3150
26.7523
0.3652
17.3267
16.5286
26.46105
从上表可以看出,而且方差较大。显然,线性回归模型不成立。由此,我们考虑多元二次多项式回归。
Purequadratic(纯二次):
Interaction(交叉):
Quadratic(完全二次):
非线性回归分析,需要计算回归剩余标准差,回归剩余标准差是表示回归方程用来预测的精度标志,可用来检验模型的可靠程度。回归剩余标准差记作:
越接近于0,说明模型对样本数据的偏差越小,预测的可靠程度(精度)越高。用MATLEB软件进行非线性回归分析,分别得到三种不同类型的多元二次多项式回归模型的剩余标准差如表2
表2多元二次多项式回归模型剩余标准差
交叉
10.6254
46.7315
0.4137
20.3430
22.0016
31.3640
纯二次
10.3081
47.5387
0.4079
20.1940
20.5560
31.2723
完全二次
9.8471
46.3362
0.3996
19.5075
20.2194
30.3493
13.64%
37.96%
65.13%
33.72%
122.53%
44.42%
通常较大,模型偏离样本数据越大,不能评价出模型的优劣,因此常采用指标,当小于15%时,可以认为回归模型较好,而上表的值只有的没有超过15%,我们认为只有的模型回归较好,即气象参数对的影响较为显著,其他影响因素可以忽略。而应除气象参数影响外,还受系统误差(零点漂移、量程漂移)的影响,且占比较大。此外的达到122.53%,结合Error:Referencesourcenotfound中的时平均和日平均浓度折线图,在1月23日出现非常规气态污染物浓度的变化对传感器产生交叉干扰,使浓度到达峰值导致。
由此可见,通过建立多元多项式回归模型,对导致自建点数据与国控点数据造成差异的因素进行分析,可以为自建点数据采集改进,提供可靠依据。
参考文献:
[1]2019年全国大学生数学建模大赛D题
[2]司守奎、刘玺菁,《数学建模算法与应用》,北京市:国防工业出版社,2011.8。
作者简介:
解术霞(1965-),女,淄博职业学院教授,主要从事数学建模、高等数学教学研究。
3