文档详情

现代统计分析方法概述.ppt

发布:2025-03-11约4.03千字共10页下载文档
文本预览下载声明

知识管理与数据分析实验室知识管理与数据分析实验室数据挖掘技术专题知识管理与数据分析实验室知识管理与数据分析实验室现代统计分析方法概述**知识管理与数据分析实验室主要内容*知识管理与数据分析实验室*现代统计分析方法介绍常用统计分析方法举例现代统计分析方法介绍从高斯(C.F.Gauss)描述天文观测的误差而引进正态分布,并使用最小二乘法作为一种估计方法至今,现代统计的发展已有200多年的历史。统计学在分析数据、探索数据规律性、研究现实问题中已形成许多各具特点的思想方法。从研究问题的角度,可将现代统计分析方法分为四大类:分类分析方法、结构简化方法、相关分析方法、预测决策方法。统计分析方法应用的步骤及其流程对统计分析方法的应用应从实际问题出发,明确具体问题和目标,然后确定理论以及相应的指标,在收集和整理数据的基础上构造满足需求的模型并进行统计计算,在对模型进行检验的基础上,对模型加以推广应用。01正态分布02区间估计和假设检验03回归分析04方差分析常用统计分析方法举例正态分布正态分布(normaldistribution)又名高斯分布(Gaussiandistribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。因其曲线呈钟形,因此人们又经常称之为钟形曲线。其数学定义如下:若随机变量X的密度函数为则称X服从正态分布,称X为正态变量,记作。正态分布的分布函数为正态分布的历史正态分布最早是棣莫佛在1734年发表的一篇关于二项分布文章中提出的。拉普拉斯在1812年发表的《分析概率论》(TheorieAnalytiquedesProbabilites)中对棣莫佛的结论作了扩展。现在这一结论通常被称为棣莫佛-拉普拉斯定理。拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。正态分布的应用正态分布是很多统计方法的理论基础,正态分布在现实中的应用也是最为广泛的,包含自动控制、质量管理、医学管理、经济分析及评价、风险评估等多个方面。正态分布在自动控制、优化设计、包装或加工零件的精度等方面有着广泛的应用。正态分布的均值就是自动控制的设定值,方差就是自动控制的精度;方差越小,精度越高,系统的性能越好质量控制方面,为了控制实验中的测量(或实验)误差,常以3σ作为上、下警戒值,以3σ作为上、下控制值。这样做可以保证正常情况下测量(或实验)误差服从正态分布医学应用方面,某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理经济分析及风险评估方面,正态分布在投入产出、经济分析、风险收益、风险价值度量等诸多方面的应用越来越广泛,为经济分析、经济评价以及风险评估提供了多样的方法选择,使评估结果更加科学区间估计和假设检验参数的区间估计和假设检验是两种最重要的统计推断形式,掌握这两种方法对做出正确的统计推断至关重要区间估计设是总体的一个参数,是样本,所谓区间估计就是要找两个统计量和,使得,在得到样本观测值之后,就把估计在区间内假设检验假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断区间估计置信区间:设是总体的一个参数,其参数空间为,是来自该总体的样本,,若有两个统计量和若对任意的,有,则称随机区间为的置信水平的置信区间对给定的一个为置信水平的频率解释:在大量重复使用的置信区间时,每次得到的样本观测值是不同的,从而每次得到的区间估计值也是不一样的,对一次具体的观测值而言,可能在内,也可能不在。平均而言,在这大量的区间估计观测值中,至少有包含假设检验假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P0.01或P0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立假设检验的一般步骤:应注意的问题1、做假设检验之前,应注意资料本身是否有可比性。2、当差别有统计学意义时应注意这样

显示全部
相似文档