文档详情

社会统计学(卢淑华),第十章.ppt

发布:2019-03-20约3.93千字共35页下载文档
文本预览下载声明
* 第十讲 列联表 ? 第一节 概念 ? ? ? ? 1、研究内容 1)研究两定类变量的关系 2)为研究y的分类是否与x之分类有关,将 数据先按x分类,再分别统计x分类情况下y 的分类。 3)按两个定类变量进行交叉分类的频次分 配表,即二维列联表。 4、列联表的一般形式 Nij:x=xi y=yj时所具有的频次 y x y1 y2 x1 N11 N12 x2 N21 N22 . . . . . . . . . xc Nc1 Nc2 . . . . . . . . . . . . yr N1r N2r . . . Ncr 学生上网调查 (统计各项比例,能发现什么问题?) 男生 女生 聊天 玩游戏 网恋 学习 20 50 15 15 20 50 15 15 ?? Nij 后者可以通过前者求出 p ? N ? N ?? p ? 1 i ?1 j ?1 2、列联表中变量的分布 ? ? ? ? 1)联合分布 对于二变量来说,为了知道分布,集合中的变量值,必须同时具有x和y 两个变量的取值。 ( x1 y1 N11) ( x2 y2 N12) ? ( x1 yr N1r) 此称联合分布 ? ? ( xi yj Nij) ( xc yr Ncr) ? Nij 表示频次时 联合频次分布表 Pij 表示概率时 联合概率分布表 ? ? ij Nij c r i ?1 j ?1 c r ij ? ? ? ? 2)边缘分布: 对联合分布进行简比,只研究其中某一 变量的分布,而不管另一变量的取值, 这样就得到边缘分布。 按行加总y的边缘分布: P? y ? yr ? ? P1r ? P2 r ? ? ? Pcr ? P?r 按列加总x的边缘分布: P?x ? xc ? ? Pc1 ? P2c ? ? ? Pcr ? Pc? ? ? ? ? 3)条件分布: 将其中一个变量控制起来取固定值,再看另 一变量的分布,即条件分布。 控制x时,条件分布中的每一项都以边缘分布 的 N1* N 2*? N c* 为分母 控制y时,条件分布中的每一项都以边缘分布 的 N *1 N *2 ? N *r 为分母 3、列联表中的相互独立性: ? ? ? 1)列联表研究定类变量之间的关系,实际上 是通过条件分布的比较进行的。 如果两个变量之间没有关系,则称变量之间 是相互独立的。 2)如果两个变量之间是相互独立的,则必然 存在变量的条件分布与其边缘分布相同 。 ? 条件分布=边缘分布是列联表检验的基础: (控制x时) N* j N N N i* Nij N N* j N Nij Ni* N*1 N N 21 N 2* N11 N1* Pij ? Pi*P* j ? ? ? ? ? ? ? ? ni? n? j P?i? ? 第二节 列联表的检验 ? ? 一、原假设: 将总体中变量间无关系或相互独立作为检验 ? 的原假设。 H 0 : pij pi* ? p* j ? 总体 pi* 和 p* j 未知时,用样本 p? i? 和 P?? j 代 替。 P?? j ? n n 2 2 c r 2 2 ? ij E ij ni* ? n* j n ? E ? np * j ij 统计量的讨论 ? 1、对于2×2列联表,由于格数过少,为 减少作为离散观测值与作为连续型变量x 值之间的偏差,可作连续性修正: 2 2 2 2 Eij ? 2、二项总体 2 2 2 E1 E2 p0 为总体成数 1 2 70 20 逛商店 30 80 泡吧 女 男 男女休闲爱好
显示全部
相似文档