统计学统计学.docx
文本预览下载声明
2021年最新
PAGE 1
·量化分析的基本的过程
“大胆假设,小心求证”
观察现象并发现问题→建立假设(对问题暂定性/可能的回答)→设计研究并搜集资料→检验假设是否获得支持
·研究假设的提出过程需要借助相关理论、文献或逻辑思考。这是演绎的过程。理论(给了假设的胆子)事先已知,对其验证。
·统计学到底收集(取得)了数据吗?那么社会调查研究呢?
·统计学概念的其他理解:随机性和规律性--寻找随机现象背后的规律
平均年龄比较稳定--规律性 一个人的年龄--随机性
·统计VS数学 数学思维以演绎推理为主,统计以归纳为主,兼有演绎
·推断统计时采用概率抽样保证代表性,用样本数据估计总体信息(参数估计)
·面板数据(截面+时序交织)
·里克特量表--顺序数据
·理论抽样--药物实验的志愿者
·参数为未知,统计量为已知;参数值为常量,统计量为变量
·变量的取值是数据
·X表示随机变量,x表示X取某值,eg:x=5
·直方图
·箱线图 最小值、最大值、中位数、下四分位数、上四分位数
异常数:箱体在下四分位数处向下1.5个本身后,该数仍位于下方,称为异常数,胡须取次小,以此类推
Correlation--相关系数
大数据面前,统计学的价值何在?朱利萍
观点1:统计学是一门收集数据的艺术
观点2:数据并不是越多越好
观点3:统计学是一门分析数据的一术 把相关关系误以为因果关系
做实验!控制变量
一个好的实验,对照组和实验组的产生不仅应该是随机的,而且应该是匹配的。(×)随机的实验更好一些
案例2.1 只匹配了性别变量
案例2.2 x,y,z 如何判断X,Y是否为因果关系?控制变量Z(xy的中间变量)x,y仍有关系?→所有情况之后,仍是如此,xy有因果关系。
如果是两个以上的因子
简单随机抽样--放回有序、放回无序、不放回有序、不放回无序
重复抽样是抽出来一个个体后再放回。
不重复抽样是抽出个体单元后不放回总体--分一次抽n个、一次1个抽n次;两种操作方法完全等价。
某一个特定单元被抽中的概率为n/N
大部分定量研究的论文都会包括:
引言:开门见山+“?”(研究问题)+发现与贡献
文献评估:经典与前沿;一览众山小(对文献进行归纳总结)(点评指出过去的不足,引出后文研究所改进优化之处)
根据理论或文献提出研究假设/理论框架;
研究设计/研究方法(变量测量+收集资料方法等);
结果/发现:详略得当;
讨论:与理论对话;前呼后应;自圆其说;
结论:一段话总结;贡献;启示;不足与展望。
土地财政:基本符合
智慧城市:基本符合
准官员:计量检验:(一)模型设定=3;(二)变量定义=4;(三)数据描述=5;(四)回归结果=5+6
0、1中1的类别作为变量名称
数据只有时间型、字符串型(无法参与任何运算)、数值型(几乎所有数据都是数值型)
标签(对变量名称)、值(数据代表的含义)
复制or打开(导入)
结果单独放置
统计图表的作用
数据取得后,下一步要从数据中获得“信息”,如何展现信息是一位统计学者应当致力学习的一环。直接有效的方法是以“图形”来描述数据。
图像让我们很快看出数据的“长像”。一张好的图表胜过冗长的文字表达。南丁格尔的玫瑰、拉弗曲线
3.1 ××
分组(按常识来)强调连续排列?
·通常,组距和组数的确定完全是按照分析者本身的判断确定的。
·“以主观设定的组距而做成的频数分布表并没有什么说服力,无法在他人面前公开,难道就没有按数学原理制定组距和组数的方法吗?”
·有个所谓的“史特吉斯公式”:1+lgn/lg2;通常,按这个公式做出的表让人无法理解。而且,统计软件给出来的分组结果往往不适用。
·我们的建议:如果存在自然分类,在设立各类别时应利用它。或者,先按照常识多分几组,比如说20组,然后再合并。一般而言,组数大约5-15。
·第一组和最后一组可以设为开放式的。除了第一组和最后一组外,各个类别的宽度应相等。
数据类型不同,选择的处理方法不同。
复合条形图
比例:某一类别数据个数占全部数据个数的比值 (总体固定)
比率:不同类别数值个数的比值eg男女性别比
表格只有三条横线,没有竖线
纵坐标可以为任何含义
帕累托图:频数必须由高到低画,建议把其他放在最后;累计折线
·当p个变量的取值相差较大或量纲不同时,为了容易理解和比较,经常会人为的将多个坐标轴都统一成一个度量,比如:百分比、标准得分等。
·标准得分计算将在后面学习中介绍,这里先讨论如何换算成百分比。通常有两种方法。方法一:让某一个变量的最大值赋值为1,该变量的其他值按照相应比例转换为0~1的数字,其他变量类似操作。方法二:每个变量按照如下公式进行百分比转换:
Yi=(xi - min xi)/(max xi - min xi)
其中,max和min分别代表最大值和最小值。
3.
显示全部