非参数检验c.doc
文本预览下载声明
第十三章 定序变量的统计推断――非参数检验
大家都知道检验两个正态总体是否具有相同分布,做一个t检验即可,这是一个典型的参数统计方法。参数统计方法往往假设统计总体的分布形态已知,但是在更多的实际场合,常常由于缺乏足够信息,无法合理地去假设一个总体具有某种分布形式,如需比较患者和正常人的药物治疗效果评分、不同运动方式的减肥效果、不同销售方式是否导致顾客满意度的差异等,当不知道所研究样本来自总体的具体分布,或已知总体分布与检验所要求的条件不符;或者数据的测量尺度是名义和顺序尺度,甚至某些变量可能无法精确测量,均值、方差的计算已经没有意义时…,有的人却忽略参数统计方法的前提,仍然牵强附会地使用参数方法,面对由此得到的不合理结果却不知问题何在。所有这些情形使我们必须放弃对总体分布参数的依赖,转而寻求更多的纯粹来自数据的信息,于是,非参数统计方法产生了!
在前面的分布检验一章中,我们已经接触到了检验、Binomial Test、One-Sample Kolmogorov-Smirnov Test 等简单的非参数方法,而非参数检验的方法层出不穷,根本的技术核心在于针对简单的数据样本,充分挖掘利用样本信息构造的别出心裁的检验统计量,熟悉并体会这些变化,对理解统计要素意义非凡。它对我们统计的直观能力的培养是一个很好的训练。借助统计软件SPSS可以直接计算出每个统计量相应的P值,对假设做出判定。
本章将针对不同的样本构成,以秩统计量为基础着重介绍采用秩和检验对样本分布位置检验的非参数的方法*。
13.1 非参数检验基础
13.1.1 非参数检验含义
在现实生活中,从生活经验到经济活动乃至政策制定和评价,很多时候我们需要选择、比较、决策,小至柴米油盐品牌的不同偏好,百姓对未来生活的预期,公司对雇员能力的考核来决定是否加薪,企业扩张对于新销售处的选址,……大至政治竞选中对候选人的民意调查等等问题我们都可以借助统计方法对样本数据进行有益的判断分析,但是任何方法都是有前提的,十七世纪犹太籍哲学家史宾诺莎强调理解是自由之道(他有句广为传颂的格言:“不要哭,不要笑,要理解”)。各种数据资料背后隐藏的讯息是帮助我们理解的重要来源,当我们拈之即来的方法失效时,应该转而使用新的方法代替!
非参数统计方法主要用于那些总体分布不能用有限个实参数来刻画,不考虑被研究的对象为何种分布以及分布是否已知的情形,它对总体分布几乎没有什么假定,只是有时对分布的形状做一些诸如连续、对称等的简单假设。顾名思义,这种检验方法着眼点不是总体的有关参数的比较,其推断方法和总体分布无关(distribution-free),他们进行的并非是参数间的比较,而是分布位置、分布形状之间的比较,研究目标总体与理论总体分布是否相同,或者各样本所在总体的分布位置是否相同等,因此不受总体分布的限定、适用范围广,故称为非参数检验。但这个名称很容易让人引起误解,它指的是推断过程和结论均与原总体参数无关,并非说在推断中什么分布参数都不利用,事实上,最常用的秩和检验就是基于秩次的分布特征推导出来的,即可能会利用到秩分布的参数。所以有学者提出将中文名称改为分布自由检验可能更为妥当。
非参数检验依然遵循于假设检验的基本思想和基本准则,在缺乏总体分布信息的支撑下,利用统计思想、数学方法和技巧构造相应的统计量进行检验,拓宽了我们的分析领域,将统计方法的魅力施展到一个更广阔的空间。
和参数方法相比,非参数检验方法的优势如下:
1.稳健性。因为对总体分布的约束条件大大放宽,不至于因为对统计中的假设过分理想化而无法反映现实,从而对有危险的误差不至于太敏感。
2.对数据的测量尺度无约束,对数据的要求也不严格,什么数据类型都可以做。
3.适用于小样本,无分布样本,数据污染样本,混杂样本等。
思考:由于非参数统计推断对于总体的要求和假设较少,人们就会问:为什么我们不一直使用它,而忘记参数检验呢?当你掌握了这些检验方法,领悟了它们的统计思想后,你会给出怎样的答案?
13.1.2 非参数检验预备知识
1.心中有数:当手中有了数据,首先要对它进行充分、直观的了解,直方图,茎叶图,箱式图,Q-Q图等可以帮助我们对数据的分布形状进行探索,避免因对数据的特性缺乏了解而盲目使用一些方法做出错误的或不合理的结论。记住,在统计分析中数据的预处理很重要!
2.顺序统计量:因为非参数统计方法并不假定总体分布,因此往往把观察值的顺序及其性质将作为研究的对象。正是由于这一特点,非参数方法中的秩和检验实际上就成为了有序分类资料的标准分析方法。对于样本数据,如果将其按升幂排列,则可以得到,这就是顺序统计量,其中为第个顺序统计量,对它的性质的研究构成非参数统计的理论基础之一。
3.秩(Rank)及秩统计量:对于样本,按由小到大排成一列,若在这一列中占据第位
显示全部