数据处理方法.doc
文本预览下载声明
回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction)处理和标准化(Standardization或Normalization)处理。
目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态布的数据。计算过程由下式表示:
下面解释一下为什么需要使用这些数据预处理步骤。在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的、又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。这样,在使用梯度下降法学习参数的时候,不同特征对参数的影响程度就一样了。
简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。
下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。其实,在不同的问题中,中心化和标准化有着不同的意义,
比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。
另外,对于主成分分析(PCA)问题,也需要对数据进行中心化和标准化等预处理步骤
二、利用Excel对数据进行标准化处理
在使用各种方法进行综合评价时,首先要对原始数据进行标准化和无量纲化处理,本例分享利用office的Excel对数据进行标准化处理,使用的是极值处理法。1.
HYPERLINK /album/e75aca857cc579142fdac660.html?picindex=3 \t _self
该种方法的算法即标准化公式如附图所示,注:对于指标值恒定的情况不适用。
这里以我国2007年中部地区6省的税收数据为例进行计算。易知,附图中的税收指标为极大型数据。所以采用的公式为x=(x-min)/(Max-min),这样标准化后的数据最大值为1,最小值为0
使用Max,Min函数分别求出数据矩阵中每列中的最大值和最小值。
?Max ?146.1136 ?184.2366 ?102.9228 ?30.2578 ?25.8857 ?42.8733 ?15.656 ?7.8004 ?18.2303 ?14.9975 ?1.9689 ?17.1054 ?35.0698 ?3.3696
?Min ?53.0534 ?95.0788 ?37.8106 ?14.8271 ?2.8286 ?17.0098 ?5.7824 ?3.1799 ?4.1246 ?1.1311 ?0.3081 ?1.7933 ?5.5753 ?0.0874
再求出极值处理法的分母即最大值与最小值的差值
?max-min ?93.0602 ?89.1578 ?65.1122 ?15.4307 ?23.0571 ?25.8635 ?9.8736 ?4.6205 ?14.1057 ?13.8664 ?1.6608 ?15.3121 ?29.4945 ?3.2822
使用每列中的数值与最小值的差比上分母即可求出标准化后的数据。公式举例:值=(B6-$B$13)/$B$14。如附图所示为使用极值处理法后的前后数据对比。
一、熵shang权法介绍
???????熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。
???????熵权法的基本思路是根据指标变异性的大小来确定客观权重。
???????一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵越大,表明指标值得变异程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小。
二、熵权法赋权步骤
1.?数据标准化
???????将各个指标的数据进行标准化处理。
???????假设给定了k个指标,其中。假设对各指标数据标准化后的值为,那么。
2.?求各指标的信息熵
???????根据信息论中信息熵的定义,一组数据的信息熵。其中,如果,则定义。
3.?确定各指标权重
???????根据信息熵的计算公式,计算出各个指标的信息熵为?。通过信息熵计算各指标的权重:?。
三、熵权法赋权实例
1.?背景介绍
???????某医院为了提高自身的护理水平,对拥有的11个科室进行了考核,考核标准包括9项整体护理,并对护理水平较好的科室进行奖励。下
显示全部