文档详情

数据分析方法1.pptx

发布:2017-06-02约1.4千字共67页下载文档
文本预览下载声明
统计基本概念回顾;现实中的随机性和规律性;现实中的随机性和规律性;概率和机会;有些概率是无法精确推断的;有些概率是可以估计的;变量;变量;数据;数据;统计和计算机 ;统计软件;统计软件;统计软件;统计软件;统计软件;统计软件;统计软件;统计软件;想想看;数据的收集;二手数据;第一手数据;观测数据和试验数据;试验数据有助于找出必要的因果关系;总体和样本;总体和样本 ;总体和样本 ;随机样本;随机样本;随机样本;方便样本; 在其他问题中,也有使用方便样本的情况。比如在肺癌研究中,人们往往看到吸烟和肺癌的关系的数据;这些数据并不是整个人群中采集的随机样本;它们可能只是医院中的病人记录中得到的。 在杂志和报纸上也有问卷,但得到的只是拥有这份报刊,而且愿意回答的人的观点。 ;误差 ;抽样调查的一些常用方法 ;一些抽样方法 ;一些抽样方法 ;一些抽样方法 ;一些抽样方法 ;抽样方法的选择不能一概而论;不仅抽样方法,而且问卷设计、调查过程等,均可能是致命的;计算机中常用的数据形式 ;思考;数据的描述;直方图 ;盒型图;第三四分位点;茎叶图 ; The decimal point is 1 digit(s) to the right of the | 2 | 2 2 | 3 | 44 3 | 789999999 4 | 000001112333344444 4 | 55555677789999 5 | 000011111112223333333344444 5 | 5555666666777888889999 6 | 000111111112222222333444444 6 | 55555566678888888899999 7 | 0000000111123333 7 | 555666677888999999 8 | 000222233344 8 | 5566899 9 | 22 9 | 5;散点图;定性变量的点图;饼图;条形图;为了综合,下面看一个城市地税例子。 例3.4 (数据TaxF.txt)这是某地区某月的税收抽样数据,有三个变量:总收入(单位:元),总纳税额(单位:元)及注册类型代码。图3.8 (a) 显示了总收入的直方图,显然,绝大部分的总收入都很小,以至于不用纳税。图3.8 (b) 为总收入和纳税额的散点图,看来收入越多,纳税越多。图3.8 (c) 为饼图,描述属于不同注册类型代码的比例。而图3.8 (d) 为衡量贫富差距的Lorenz 曲线,Lorenz曲线越接近对角线,则收入差距越小。反之,当曲线下凸得越厉害,收入差距越大。基尼系数(Gini Index)就是由Lornez曲线和对角线中间的面积占这三角形面积的比定义的。这四个图是由下面的(包括读取数据)R代码(而图(d) 的绘制使用了自编的同时可以计算基尼系数的函数gini())完成的: ;汇总统计量或概括统计量(summary statistic) ;汇总统计量(位置);汇总统计量(尺度)(scale statistic);两个尺度不同的数据的直方图,左边的标准差大约只有右边的一半 ;数据的标准得分 (standard score) ;数据的标准得分 (standard score) ;思考
显示全部
相似文档