文档详情

第6章描述性统计..doc

发布：2017-01-24约2.71万字共23页下载文档

文本预览下载声明

第6章描述性统计与t、u检验摘要：在SAS系统中，有多个过程可以进行描述性统计量的计算，常用的有：MEANS、SUMMARY、TABULATE和UNIVARIATE等。这些过程用来计算简单的描述统计量，可计算均值、标准差、方差、变异系数、标准误等。TTEST用于进行t、u检验。从科研试验和生产实践中获得的数据往往是杂乱无章的，而实际上变量的分布多具有一定的规律性，表现出数据的集中趋势和离散特性。反映集中特性的统计量有平均数、众位数和中位数等，反映离散特性的统计量有极差、标准差、变异系数和方差等，对分布形状的度量一般采用峰度系数和偏度系数等。对这些统计量的计算是描述数据的较好方法。 MEANS 提供单个或多个变量的简单描述SUMMARY 提供单个或多个变量的简单描述TABULATE 提供单个变量的详细描述。 UNIVARIATE 提供单个变量的详细描述和对其分布类型的检验TTEST 用于进行t、u检验（不成对数据平均数检验）。在SAS系统中，有多个过程可以进行描述性统计量的计算，表6.1给出了几个常用过程可以分析的各种统计量和一些其他重要特点。这些过程大同小异，有些功能可以彼此取代。 §6.1 MEANS过程一、过程格式 PROC MEANS [选择项] [统计量关键字列表] ]; VAR ; 要分析的变量名列 BY 变量表; 按变量名列分组统计，要求数据集已按变量名列排序 CLASS 变量表; 按变量名列分组统计，不要求数据集排序 FREQ 变量表; 表明该变量为分析变量的频数 WEIGHT 变量表; 表明分析变量在统计时要按该变量权重 ID 变量表; 输出时加上该变量作为索引 OUTPUT OUT=数据集 [统计关键字=变量名 …]; 指定统计量的输出数据集名关键字= 新变量名列... ] ; 指定统计量对应的新变量名二、选择项说明 DATA=SAS数据集将计算出的统计量输出到一个数据集。所有PROC MEANS语句中可用统计量均可在此指定。 NOPRINT 说明不输出任何描述性统计值。 MAXDEC=n 指出MEANS用于输出结果的最大小数位（0～８），缺省值为7。 FW=n n为输出统计量时的字段宽度，缺省值为12。 VARDEF=N|DF|WGT|WDF 指定方差计算所用的分母。 N表示观察值的总数 DF表示自由度N-1 WGT表示权重和WDF表示权重和减1。 MISSING 指定MEANS过程将缺失值视为一个特殊分组处理，否则缺失值将被剔除。统计量用来指定进行计算的描述性统计量(见表6.1)。缺省统计量选择项时，只输出N、MIN、MAX、MEAN、STD。三、MEANS过程中常用的统计量关键字有：基本统计量 N MEAN STD CV SUM VAR RANG MIN MAX USS CSS与假设检验有关的统计量 STDERR(标准误） T PRT(与t对应的p值) LCLM(可信区间下限) UCLM(可信区间上限) PROC MEANS过程中的其他语句 VAR语句：列入变量表的数据集变量将被MEANS过程分析、若无次句，则计算输入数据集中除BY、ID、CLASS、FREQ、WEIGHT语句中的变量之外的所有变量的统计量。 BY语句：指定变量进行分组处理。（事先必须按BY语句指定的变量将输入数据集按升序排序） CLASS语句：将数据集中全体观察值按CLASS语句中变量进行分组、分析处理。BY与CLASS语句的作用都是按指定的变量进行分组分析处理，但二者有不同：分组层次不同：BY语句把全部观察按BY指定的变量分组；CLASS是在BY语句的基础上将BY分组再进一步行划分，进行分组变量的组合，产生多种凡是分组。例如： CLASS A B C；则按指定变量A、B、C各种组合，可以有8种方式：不分组、按变量A分组、按变量B分组、按变量C分组、按变量A和B分组、按变量A和C分组、按变量B和C分组、按变量A、B、C分组。按BY语句只有按变量A、B、C分组，且使用BY语句时，事先将数据集按BY后面的变量排序。而CLASS无此要求。 REQ语句：指定某一变量，表示同一观察的出现次数。 OUTPUT OUT=数据集：将MEANS过程的结果输出给指定的数据集中。六、结果解释在默认的情况时，means过程会输出绝大部分统计量，此时的输出结果如下： Variable=变量名变量标签 Moments 和矩有关的统计量 Quantiles(Def=5) 分位间距统计量 N 样本量 Sum Wgts 权重总和 100%

显示全部

相似文档