文档详情

统计学统计学.docx

发布：2021-01-13约5.01千字共16页下载文档

文本预览下载声明

2021年最新 PAGE 1 ·量化分析的基本的过程 “大胆假设，小心求证” 观察现象并发现问题→建立假设（对问题暂定性/可能的回答）→设计研究并搜集资料→检验假设是否获得支持 ·研究假设的提出过程需要借助相关理论、文献或逻辑思考。这是演绎的过程。理论（给了假设的胆子）事先已知，对其验证。 ·统计学到底收集（取得）了数据吗？那么社会调查研究呢？ ·统计学概念的其他理解：随机性和规律性--寻找随机现象背后的规律平均年龄比较稳定--规律性一个人的年龄--随机性 ·统计VS数学数学思维以演绎推理为主，统计以归纳为主，兼有演绎 ·推断统计时采用概率抽样保证代表性，用样本数据估计总体信息（参数估计） ·面板数据（截面+时序交织） ·里克特量表--顺序数据 ·理论抽样--药物实验的志愿者 ·参数为未知，统计量为已知；参数值为常量，统计量为变量 ·变量的取值是数据 ·X表示随机变量，x表示X取某值，eg：x=5 ·直方图 ·箱线图最小值、最大值、中位数、下四分位数、上四分位数异常数：箱体在下四分位数处向下1.5个本身后，该数仍位于下方，称为异常数，胡须取次小，以此类推 Correlation--相关系数大数据面前，统计学的价值何在？朱利萍观点1：统计学是一门收集数据的艺术观点2：数据并不是越多越好观点3：统计学是一门分析数据的一术把相关关系误以为因果关系做实验！控制变量一个好的实验，对照组和实验组的产生不仅应该是随机的，而且应该是匹配的。（×）随机的实验更好一些案例2.1 只匹配了性别变量案例2.2 x,y,z 如何判断X,Y是否为因果关系？控制变量Z（xy的中间变量）x，y仍有关系？→所有情况之后，仍是如此，xy有因果关系。如果是两个以上的因子简单随机抽样--放回有序、放回无序、不放回有序、不放回无序重复抽样是抽出来一个个体后再放回。不重复抽样是抽出个体单元后不放回总体--分一次抽n个、一次1个抽n次；两种操作方法完全等价。某一个特定单元被抽中的概率为n/N 大部分定量研究的论文都会包括：引言：开门见山+“？”（研究问题）+发现与贡献文献评估：经典与前沿；一览众山小（对文献进行归纳总结）（点评指出过去的不足，引出后文研究所改进优化之处）根据理论或文献提出研究假设/理论框架；研究设计/研究方法（变量测量+收集资料方法等）；结果/发现：详略得当；讨论：与理论对话；前呼后应；自圆其说；结论：一段话总结；贡献；启示；不足与展望。土地财政：基本符合智慧城市：基本符合准官员：计量检验：（一）模型设定=3；（二）变量定义=4；（三）数据描述=5；（四）回归结果=5+6 0、1中1的类别作为变量名称数据只有时间型、字符串型（无法参与任何运算）、数值型（几乎所有数据都是数值型）标签（对变量名称）、值（数据代表的含义）复制or打开（导入）结果单独放置统计图表的作用数据取得后，下一步要从数据中获得“信息”，如何展现信息是一位统计学者应当致力学习的一环。直接有效的方法是以“图形”来描述数据。图像让我们很快看出数据的“长像”。一张好的图表胜过冗长的文字表达。南丁格尔的玫瑰、拉弗曲线 3.1 ×× 分组（按常识来）强调连续排列？ ·通常，组距和组数的确定完全是按照分析者本身的判断确定的。 ·“以主观设定的组距而做成的频数分布表并没有什么说服力，无法在他人面前公开，难道就没有按数学原理制定组距和组数的方法吗？” ·有个所谓的“史特吉斯公式”：1+lgn/lg2；通常，按这个公式做出的表让人无法理解。而且，统计软件给出来的分组结果往往不适用。 ·我们的建议：如果存在自然分类，在设立各类别时应利用它。或者，先按照常识多分几组，比如说20组，然后再合并。一般而言，组数大约5-15。 ·第一组和最后一组可以设为开放式的。除了第一组和最后一组外，各个类别的宽度应相等。数据类型不同，选择的处理方法不同。复合条形图比例：某一类别数据个数占全部数据个数的比值（总体固定）比率：不同类别数值个数的比值eg男女性别比表格只有三条横线，没有竖线纵坐标可以为任何含义帕累托图：频数必须由高到低画，建议把其他放在最后；累计折线 ·当p个变量的取值相差较大或量纲不同时，为了容易理解和比较，经常会人为的将多个坐标轴都统一成一个度量，比如：百分比、标准得分等。 ·标准得分计算将在后面学习中介绍，这里先讨论如何换算成百分比。通常有两种方法。方法一：让某一个变量的最大值赋值为1，该变量的其他值按照相应比例转换为0~1的数字，其他变量类似操作。方法二：每个变量按照如下公式进行百分比转换： Yi=(xi - min xi)/(max xi - min xi) 其中，max和min分别代表最大值和最小值。 3.

显示全部

相似文档