【转载】SPSS数据分析中出现的常见问题总结.pdf
【转载】SPSS数据分析中出现的常见问题总结
总结最近数据分析过程中遇到的⼀些问题的思考
1.问卷中多选题的录⼊与分析
2.数据分析流程的第⼀步:对所分析的样本数据本⾝的特征结构进⾏预分析
3.根据数据中的某个因素的⼏个⽔平来分析数据总体的差异性。
4.根据数据中的变量之间的相关性,了解数据的内部关系,并建⽴模型。
5.数据的降维处理。
6.结构⽅程模型的运⽤。
7.时间序列的分析,主要运⽤在经济模型中。
8.⾯板数据的处理。
*在接单的过程中发现,SPSS主要适⽤于横截⾯数据的处理,⼤多数集中在问卷调查的分析上*
*对于时间序列的分析主要使⽤Eviews和Stata两个软件,⾯板数据的处理集中于Stata*
*由于SPSS软件单机处理数据量受到限制,可以处理数据量不⼤的机器学习算法,所以个⼈认为处理机器学习的问题⽤Python处理*
问卷中多选题的录⼊与分析
对于多选题的录⼊,常见的⽅法有两种:多重⼆分法和多重分类法。多重⼆分法是指对每⼀个选项都定义⼀个变量,这些变量都是只有两
个取值,分别代表选择和未选择。多重分类法就是将多选题当做单选题来选,每⼀个变量空格填写其中的⼀次选项的选择,最保险的做法就
是多选题有多少个选项,就设置多少个变量
多重⼆分法适⽤于多选题选项个数不多的多选题,多重分类法适⽤于多选题选项数量多且有些选项⼏乎不被选上的情况
设定多选题变量集
由于多选题在SPSS中被判定为⼀个⼀个零散的变量,需要⼈为将整个多选题设置为⼀道多选题,此时在SPSS中的操作为:分析-多重响应-
定义变量集
将需要组成多选题的变量选进集合中的变量,对于多重⼆分类问题在变量编码⽅式上选择⼆分法,计数值填写表⽰选中的值;对于多重多分
类问题选择类别,范围填写实际问卷中的数值范围。最后将多选题的名称,对多项题解释说明的标签填写完毕后,点击添加按键,完成多选
题的定义。
多选题的分析处理
通过分析多选题中每个选项被选择频率和交叉表格。通过使⽤频率分析和交叉表格分析:SPPS操作为分析-多重响应-频率或交叉表格。
频率分析
将定义好的多重⼆分类多选题选⼊表格,并设置缺失值为在⼆分集内按照列表顺序排除的个案,如果是多重多分类问题,缺失值设置为在类
别内按照列表顺序排除个案。
*交叉表格分析*
在交叉表格分析中,将问题的影响因素放⼊⾏中(例如性别的影响,学院的影响等),将多选题(多响应集)放⼊列,将额外层级放⼊层
(如年级,学历等)。然后分别点击⾏与层内的变量,点击定义范围为其范围设定区间,如性别变量1代表男,2代表⼥,范围就是
(1,2)。
频数分析结果
由于是多选题,⼀个⼈会选择多个观点,所以总计显⽰的是总观点数,其中⼀个观点数⽬/总观点数就是响应百分⽐,其中⼀个观点数⽬/总
⼈数就是个案百分⽐。
交叉表格结果
数据分析流程的第⼀步:对所分析的样本数据本⾝的特征结构进⾏预分析
1.对于数值型数据,可以从数据的直⽅图中初步了解这个变量的数据分布形式,对于检验数据是否符合正态分布可以使⽤SPSS软件中的PP
图和QQ图进⾏直观上的初步检验,进⼀步可以通过⾮参数检验中的K-S检验,通过显著性⽔平来检验数据是否符合正态分布性质。
直⽅图
在SPSS中的操作:图形-图形构建器
或者通过:分析-描述统计-频率
通过分析菜单中的统计描述,可以完成数值型数据的初步统计描述,包括百分位数、集中趋势、离散趋势、分布(偏度、峰度)、直⽅图,
箱线图也是很重要描述数据分布的⼀种统计图表。
STEP1绘制带有正态曲线的直⽅图通过对⽐直⽅图与正态曲线的拟合程度,判定数据序列的分布形态是否接近正态分布。
STEP2
通过绘制Q-Q图与P-P图来从图形上检验数据是否服从正态分布。SPSS中的操作为:分析-描述统计-P-P图或者Q-Q图。
左侧两幅图中,语⽂成绩的散点分布与斜线拟合的较好,数学成绩的散点严重偏离斜线。右侧两幅图中,描述的是数据分布与正态分布的差
值,可见语⽂成绩与正态分布的偏差较⼩,⽽数学成绩与正态分布的偏差较⼤。故此,语⽂成绩偏差较⼩,可认为是基本符合正态分布。
STEP3
通过⾮参数检验K-S正态检验,从定量的⾓度对数据的分布进⾏甄别。在SPSS中的操作为:分析-⾮参数检验-旧对话框-1样本
K-S。
2.对于分类型数据⽽⾔数据的分布主要是对各个类别取值分别进⾏频数和⽐例计算,在进⼀步计算所需的⼀些相对数指标。
SPSS软件中可以⽤到的功能:
1.频率过程:针对单个分类变量输出频数表,从中得到频数,百分⽐,累计百分