文档详情

杨鹏伟-STATA统计分析与应用 第六章 列联分析.ppt

发布:2018-04-19约4.37千字共18页下载文档
文本预览下载声明
第六章 列联表分析 6.1列联表分析 列联表是分析两个分类变量(名义变量或者定序变量)之间关系的基本统计方法。设两个变量A和B分别有r和c个类型,则他们可以构成一个的列联表。 独立性检验统计量 在对两变量进行列联表分析时,首先要检验它们的独立性,这就涉及到独立性检验统计量,常用的统计量有皮尔逊卡方统计量(Pearson Chi-Square)和似然比统计量(Likelihood Ratio)。 Fisher精确检验仍采用卡方统计量作为检验统计量,只是在计算统计量的分布时,利用概率论中的超几何分布来计算每一种情况发生的概率,然后才能得到P值。当样本量较大,或者列联表的行数及列数较大时,Fisher检验的计算量会变得很大,以至于无法承受。 列联表中的相关测量统计量 对于名义变量,通常采用基于卡方统计量的各种统计量来进行关联性度量,最常的是Cramer’s V系数 对于有序变量,关联性度量的统计量通常是基于观测中的一致对和不一致对的个数。可以定义以下统计量来描述有序变量之间的有序关联性的大小: 统计量:gamma统计量和 Kendall统计量 6.2 Stata的列联表分析——table和tabulate命令 6.2.1使用table命令生成列联表 table命令可以用于生成一维到多维的列联表,表中不仅可以包含常见的频数,还可以包含任意其他变量的描述性统计量。 table命令的格式如下: table rowvar [colvar [supercolvar]] [if] [in] [weight] [, options] 其中rowvar代表行变量,colvar代表列变量,supercolvar代表更高阶的列变量,同之前一样,in和if用于选择样本或者选择范围,weight用于添加权重。 表6-2 table命令可以报告的统计量 freq 频数 mean 平均数 sd 标准差 semean 标准误 (sd/sqrt(n)) sum 总和 count、n 观测值个数 max 最大值 min 最小值 median 中位数 p# 各种百分位数 iqr IQR四分位距 【例6.1】 数据集auto.dta是Stata系统自带的关于1978年汽车市场的一个调查数据,该数据集共有74个观测值,12个变量。变量的具体情况是:make是字符型变量,表明生产厂商。其他均为数值型变量,price是汽车的价格(万元),mpg是行驶里程(英里),rep78是在该年度修理次数,foreign是虚拟变量,赋值1代表国外产,0代表国产。数据用几个变量揭示了汽车的重要特征:headroom、trunk、length、turn、displacemen、gea_ratio依次代表汽车内部空间大小、后备箱空间大小、身长、转弯半径、排气量和变速比。 本例演示如何利用table命令完成如下两个任务: (1)使用table命令创建关于rep78的频数表,并在表中显示mpg的观测值个数、平均数、标准差和中位数。 (2)使用table命令创建关于foreign和rep78的二维表格,并在表中显示mpg的平均数。 【例6.2】本例使用一个关于肺炎的调查数据集byssin1.dta来说明table命令创建多维表格。数据集中每个观测值代表了一类人,变量prob是该类人罹患肺炎的概率,smokes是代表是否吸烟的虚拟变量,race是关于是否是白人的虚拟变量,workplace按照工作场所的烟尘等级划分为三类,1为最少,3为最多,sex是性别,1代表男性。最关键的变量是pop,表示具有该观测值的个体的数量,比如,pop=3,则意味着样本中有3个人具有该观测值所揭示的性质。在这个数据集中,pop的取值从0到507不等,其中0说明没有任何个体具有该观测值所揭示的性质,507则说明有507个个体具有同样的性质。我们鼓励读者使用codebook命令对这些变量的具体赋值更深入地考察。 下面我们演示如何完成如下两个创建多维表格的任务。 (1)创建一个关于workplace、smokes和race的三维列联表。 (2)创建一个关于workplace、smokes、race和sex的四维列联表。 6.2.2使用tabulate命令进行列联表分析 1. 一维tabulate命令 tabulate的一维命令主要用于生成含有频数的一维表格,使用比较简单,当我们想查看某个变量的赋值情况时,也可以使用tabulate来得到大体的印象。下面是这个命令的标准结构: tabulate varname [if] [in] [weight] [, tabulate1_options] 同之前一样,in和if用于选择样
显示全部
相似文档