文档详情

第6章描述性统计..doc

发布:2017-01-24约2.71万字共23页下载文档
文本预览下载声明
第6章 描述性统计与t、u检验 摘要:在SAS系统中,有多个过程可以进行描述性统计量的计算,常用的有:MEANS、SUMMARY、TABULATE和UNIVARIATE等。这些过程用来计算简单的描述统计量,可计算均值、标准差、方差、变异系数、标准误等。TTEST用于进行t、u检验。 从科研试验和生产实践中获得的数据往往是杂乱无章的,而实际上变量的分布多具有一定的规律性,表现出数据的集中趋势和离散特性。反映集中特性的统计量有平均数、众位数和中位数等,反映离散特性的统计量有极差、标准差、变异系数和方差等,对分布形状的度量一般采用峰度系数和偏度系数等。对这些统计量的计算是描述数据的较好方法。 MEANS 提供单个或多个变量的简单描述SUMMARY 提供单个或多个变量的简单描述TABULATE 提供单个变量的详细描述。 UNIVARIATE 提供单个变量的详细描述和对其分布类型的检验TTEST 用于进行t、u检验(不成对数据平均数检验)。 在SAS系统中,有多个过程可以进行描述性统计量的计算,表6.1给出了几个常用过程可以分析的各种统计量和一些其他重要特点。这些过程大同小异,有些功能可以彼此取代。 §6.1 MEANS过程 一、过程格式 PROC MEANS [选择项] [统计量关键字列表] ]; VAR ; 要分析的变量名列 BY 变量表; 按变量名列分组统计,要求数据集已按变量名列排序 CLASS 变量表; 按变量名列分组统计,不要求数据集排序 FREQ 变量表; 表明该变量为分析变量的频数 WEIGHT 变量表; 表明分析变量在统计时要按该变量权重 ID 变量表; 输出时加上该变量作为索引 OUTPUT OUT=数据集 [统计关键字=变量名 …]; 指定统计量的输出数据集名 关键字= 新变量名列... ] ; 指定统计量对应的新变量名 二、选择项说明 DATA=SAS数据集 将计算出的统计量输出到一个数据集。所有PROC MEANS语句中可用统计量均可在此指定。 NOPRINT 说明不输出任何描述性统计值。 MAXDEC=n 指出MEANS用于输出结果的最大小数位(0~8),缺省值为7。 FW=n n为输出统计量时的字段宽度,缺省值为12。 VARDEF=N|DF|WGT|WDF 指定方差计算所用的分母。 N表示观察值的总数 DF表示自由度N-1 WGT表示权重和WDF表示权重和减1。 MISSING 指定MEANS过程将缺失值视为一个特殊分组处理,否则缺失值将被剔除。 统计量 用来指定进行计算的描述性统计量(见表6.1)。缺省统计量选择项时,只输出N、MIN、MAX、MEAN、STD。 三、MEANS过程中常用的统计量关键字有: 基本统计量 N MEAN STD CV SUM VAR RANG MIN MAX USS CSS与假设检验有关的统计量 STDERR(标准误) T PRT(与t对应的p值) LCLM(可信区间下限) UCLM(可信区间上限) PROC MEANS过程中的其他语句 VAR语句:列入变量表的数据集变量将被MEANS过程分析、若无次句,则计算输入数据集中除BY、ID、CLASS、FREQ、WEIGHT语句中的变量之外的所有变量的统计量。 BY语句:指定变量进行分组处理。(事先必须按BY语句指定的变量将输入数据集按升序排序) CLASS语句:将数据集中全体观察值按CLASS语句中变量进行分组、分析处理。BY与CLASS语句的作用都是按指定的变量进行分组分析处理,但二者有不同: 分组层次不同:BY语句把全部观察按BY指定的变量分组;CLASS是在BY语句的基础上将BY分组再进一步行划分,进行分组变量的组合,产生多种凡是分组。例如: CLASS A B C;则按指定变量A、B、C各种组合,可以有8种方式: 不分组、按变量A分组、按变量B分组、按变量C分组、按变量A和B分组、 按变量A和C分组、按变量B和C分组、按变量A、B、C分组。 按BY语句只有按变量A、B、C分组,且使用BY语句时,事先将数据集按BY后面的变量排序。而CLASS无此要求。 REQ语句:指定某一变量,表示同一观察的出现次数。 OUTPUT OUT=数据集:将MEANS过程的结果输出给指定的数据集中。 六、结果解释 在默认的情况时,means过程会输出绝大部分统计量,此时的输出结果如下: Variable=变量名 变量标签 Moments 和矩有关的统计量 Quantiles(Def=5) 分位间距统计量 N 样本量 Sum Wgts 权重总和 100%
显示全部
相似文档