文档详情

matlab数学建模数据分析.ppt

发布:2017-06-23约2.26万字共146页下载文档
文本预览下载声明
第四单元 数据分析 Matlab统计工具箱 一.matlab统计工具箱(statistics toolbox)简介 1.1 统计工具箱的几大功能 1.1.2 概率分布—连续型 1.1.3另外4大功能 二 概率分布 2.1 三.参数估计 3.1最大似然估计 3.1.1 最大似然估计(mls)举例 3.2 对数似然函数 3.2.1其他负对数似然函数 四 描述性统计 概述: 人们希望用少数样本来体现样本总体的规律。 描述性统计就是收集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。 根据统计量特征性质的不同,工具箱提供了位置度量、散布度量、自助法以及在缺失数据情况下处理方法等方面的描述性统计工具函数。 4.1中心趋势(位置)度量 数据样本中心度量的目的在于对数据样本的数据分布线上分布的中心予以定位,即中心位置的度量。 均值是对位置的简单和通常的估计量。但野值的存在往往影响位置的确定。而中位数和修正的均值则受野值的干扰很小。中位数是样本的50%分位点。而修正的均值所蕴涵的思想则是剔除样本中最高值和最低值来确定样本的中心位置。 几何均值和调和均值对野值都较敏感。当样本服从对数正态分布或偏斜程度很大时,它们也都是有效的方法。 以下介绍位置度量有关函数。 4.2.1: 几何平均数(geomean) 功能:样本的几何均值。 格式:m=geomean(X) 说明:几何均值的定义为 m= (1.4.1) geomean 函数计算样本的几何均值 。X若为矢量,它返回X中元素的几何均值;X若为矩阵,它的结果为一个行矢量,每个元素为X对应列元素的几何均值。 举例:x=exprnd(1,10,6); geometric=geomean(X); average=mean(X); 4.2.2: (调和均值)harmmean 功能:样本数据的调和均值。 格式:m=harmmean(X) 说明:调和均值定义为 举例:样本均值大于或等于调和均值。 X=exprnd(1,10,6); harmonic=harmmean(X) average=mean(X) 4.2.3(平均值)mean 功能:样本数据的平均值。 说明:平均值定义为 举例:x=normrnd(0,1,100,5); xbar=mean(X) 4.2.4:median 功能:样本数据的中值。 说明:中值即数据样本的50%中位数。中位数对野值出现的影响较小。 举例:xodd=1:5; modd=median(xodd) meven=median(xeven) 4.2.5:trimmean 功能:剔除极端数据的样本均值。 格式:m=trimmean(X,percent) 说明:函数计算剔除观测量中最高百分比和最低百分比数据后的均值。 函数中percent代表百分比。 举例:X=normrnd(0,1,100,100); m=mean(X) trim=trimmean(X,10) sm=std(m) strim=std(trim) efficiency=(sm/strim).^2 4.3散布度量 散布度量可以理解为样本中的数据偏离其数值中心的程度,也称离差。 极差,定义为样本最大观测值与最小观测值之差。 标准差和方差为常用的散布度量,对正态分布的样本描述是最优的。但抗野值干扰能力较小。 平均绝对值偏差对野值也敏感。 四分位数间距为随机变量的上四分位数 和下四分位之差。 4.5处理缺失数据的函数 在对大量的数据样本进行处理分析时,常会遇到一些数据无法找到或不能确定的情况。这时可用NaN标注这个数据。而工具箱中有一些函数自动处理它们。 如 :忽视NaN, 求其他数据的最大值的nanmax. 格式:m=nanmax(X) 举例:m=magic(3); m([1 6 8])=[NaN NaN NaN] [nmax,maxidx]=nanmax(m) 4.6中心矩 中心矩是关于数学期望的矩。对于任意的r
显示全部
相似文档