文档详情

统计数据中异常值的检验方法.pdf

发布:2017-08-10约字共3页下载文档
文本预览下载声明
2o03年 第 5期 统计研 究 No.5 2∞ 3 SUdisttl~ l~settrch 53 统计数据中异常值的检验方法 张德 然 ABSrrRACT Instatistics,thekeyproblem affectingthequalityofdataistheelror,whichisthemajorleason causingoufliers.Therefore,it’Scritical topickoutthem .Asaresult,apractical testingmehtodwhichcan beappliedtokindsofcasesisdeveloped,and the resultsofconcreteexamplesna d limitation show its conveniencena dhig【h credibility. 关键词 :统计数据 ;异常值 ;检验 机对数据 间的逻辑关 系进行检查 和纠正 ,然而面对混 杂 一 、 异常值 的两种理解 在大量原始数据 中的异常数据却难 以较准确地判断。尤 统计数据质量 问题 一直 困扰着我 国统计界 ,也 为社 其是广义定义上 的异常值 ,到 目前为止 国内外 尚无有 效 会各界所关注 。所 以近年来对其理论上 的研究探讨 始络 的方法将 其一 一检验 出来 。对于狭 义定 义下 的异常值 , 保持热点 。但研究的重点主要是在健全统计法律制度和 由于它们对统计分析 的结果反应灵敏及数学上 的处理相 完善工作程序等方 面 。毫无疑 问 ,这些确实是提高统计 对来说较 简单 。近年来 ,国 内外不少学者从不 同角度对 数据质量 的重要方面 。但统计数据质量 问题本质上是误 其给 出了一些方法 。特别是在 电子产 品的可靠性 研究、 差 问题 。即所提供 的统计数据与客观 的社会经济现象实 机械制造业 的可靠性疲 劳试验 、橡胶工业 的试验 以及其 际的数量特征之 间的差距 问题 。如果数据 中混进 了异常 它行业对产 品质量等 的统计分析 中,其相关 的数据均可 值 ,就会使相应统计分析误差增大 ,小则出差错 ,大则发 视之为 “寿命数据”。对本数据的描述 ,指数分布,伽玛分 生事故,甚至导致宏观决策上 的失误 。因此 ,在利用统计 布 ,威布尔分布 以及对数正 态分布 占据 了十分重要 的角 数据进行统计分析 之前 ,有必要对 其进 行异常数据 的检 色 ,因为它们在相 当广泛 的范 围内具 有实用性 。正是基 验 。 于此 ,国内外 已有 的文献基 本上都 是针对上述分 布研究 何谓异常数据?从有关文献 中我们可 以发现 国内外 了异常数据 的检验 问题 。同时国家标准局也 已颁布 了正 的一些学者们认识不尽相 同,归纳起来 笔者把其界定为 态分布 、极值分布 以及指数 分布异常数据 的判断 和处理 两种 ,从它们 的内涵关 系,称其分别为广义及狭义定义 。 的三个 国家标准 ,供实际工作者使用 。 定义 l(广义定义):在所获统计数据 中相对误差较大 二、异常值检验 的方法 的观察数据称之为异常值 (outlier)。或称奇异值。 定义 2(狭义定义):一批数据 中有部分数据与其余数 由定义 2,异常值就是离群值 ,将所获统计数据按从 据相 比明显不一致 的称为异常值 。或称离群值 。 小到大 的次序进行排列后 ,
显示全部
相似文档