统计数据中异常值的检验方法.pdf
文本预览下载声明
2o03年 第 5期 统计研 究
No.5 2∞ 3 SUdisttl~ l~settrch 53
统计数据中异常值的检验方法
张德 然
ABSrrRACT
Instatistics,thekeyproblem affectingthequalityofdataistheelror,whichisthemajorleason
causingoufliers.Therefore,it’Scritical topickoutthem .Asaresult,apractical testingmehtodwhichcan
beappliedtokindsofcasesisdeveloped,and the resultsofconcreteexamplesna d limitation show its
conveniencena dhig【h credibility.
关键词 :统计数据 ;异常值 ;检验
机对数据 间的逻辑关 系进行检查 和纠正 ,然而面对混 杂
一 、 异常值 的两种理解
在大量原始数据 中的异常数据却难 以较准确地判断。尤
统计数据质量 问题 一直 困扰着我 国统计界 ,也 为社 其是广义定义上 的异常值 ,到 目前为止 国内外 尚无有 效
会各界所关注 。所 以近年来对其理论上 的研究探讨 始络 的方法将 其一 一检验 出来 。对于狭 义定 义下 的异常值 ,
保持热点 。但研究的重点主要是在健全统计法律制度和 由于它们对统计分析 的结果反应灵敏及数学上 的处理相
完善工作程序等方 面 。毫无疑 问 ,这些确实是提高统计 对来说较 简单 。近年来 ,国 内外不少学者从不 同角度对
数据质量 的重要方面 。但统计数据质量 问题本质上是误 其给 出了一些方法 。特别是在 电子产 品的可靠性 研究、
差 问题 。即所提供 的统计数据与客观 的社会经济现象实 机械制造业 的可靠性疲 劳试验 、橡胶工业 的试验 以及其
际的数量特征之 间的差距 问题 。如果数据 中混进 了异常 它行业对产 品质量等 的统计分析 中,其相关 的数据均可
值 ,就会使相应统计分析误差增大 ,小则出差错 ,大则发 视之为 “寿命数据”。对本数据的描述 ,指数分布,伽玛分
生事故,甚至导致宏观决策上 的失误 。因此 ,在利用统计 布 ,威布尔分布 以及对数正 态分布 占据 了十分重要 的角
数据进行统计分析 之前 ,有必要对 其进 行异常数据 的检 色 ,因为它们在相 当广泛 的范 围内具 有实用性 。正是基
验 。 于此 ,国内外 已有 的文献基 本上都 是针对上述分 布研究
何谓异常数据?从有关文献 中我们可 以发现 国内外 了异常数据 的检验 问题 。同时国家标准局也 已颁布 了正
的一些学者们认识不尽相 同,归纳起来 笔者把其界定为 态分布 、极值分布 以及指数 分布异常数据 的判断 和处理
两种 ,从它们 的内涵关 系,称其分别为广义及狭义定义 。 的三个 国家标准 ,供实际工作者使用 。
定义 l(广义定义):在所获统计数据 中相对误差较大
二、异常值检验 的方法
的观察数据称之为异常值 (outlier)。或称奇异值。
定义 2(狭义定义):一批数据 中有部分数据与其余数 由定义 2,异常值就是离群值 ,将所获统计数据按从
据相 比明显不一致 的称为异常值 。或称离群值 。 小到大 的次序进行排列后 ,
显示全部