第四篇数理统计模型.doc
文本预览下载声明
第四篇 数理统计模型数理统计学的理论和方法与人类活动的各个领域在不同程度上都有关联,数理统计学是研究收集数据、分析数据并据以对所研究的问题作出一定的结论的科学和艺术,数理统计学所考察的数据都带有随机性(偶然性)的误差,一些随机现象的特征可以通过对统计数据的整理与加工得到体现,数理统计的应用基础是抽样分布,特别是正态总体的抽样分布是统计推断的理论基础。在统计的应用实例中,主要培养统计数据的处理和分析以及根据统计数据进行统计推断的方法,。
统计数据处理抽样分布相关的应用实例有:统计数据的整理与加工,彩电色彩的质量分布,根据统计数据估计吉尼(Gini)系数,正态总体样本方差服从卡方分布并且与样本均值相互独立,正态总体样本标准差不是总体标准差的无偏估计量。
数理统计的主要任务是统计推断,包括统计估计和统计检验,是根据统计数据对未知的随机现象进行统计推断,在质量管理与控制等方面有着重要的应用。参数估计方法在捕鱼问题中的应用,平均值的质量控制图,概率论在产品质量验收抽样方案确定中的应用与统计推断相关的应用实例有:实际推断原理——小概率事件原理,改变包装能使销售量增加吗?成对比较与成组比较,葡萄酒质量的评价刀具寿命的“正态拟合”保险实务中损失分布的统计分析。
相关分析是用来分析变量间关系与方向程度的方法,回归分析是用来分析自变量与应变量之间的数量关系,二者既有联系又有区别,在研究变量之间的非确定性关系中有重要的作用。关于相关分析与回归分析的应用实例有:手掌“生命线”的长度并不反映人的寿命,一元线性回归在季节波动预测中的应用输电线路有功潮流值与发电机组出力的多元线性回归。4.1 统计数据的整理与加工
上海证券交易所将每天各种股票的交易价格概括为一个综合指数,称为“上证指数”,如果今天的上证指数为,而上一个交易日的上证指数为,则称为上证指数的涨跌值。下面的数据是上海证券交易所1995年头50个交易日上证指数涨跌的观测值(摘自新民晚报):
13.93,-6.92,-6.13,-14.79,-15.70,-2.83,-11.01,-4.28,-9.03,-0.87,5.70,-21.92,-0.48,-17.80,-5.87,8.20,-2.67,-28.87,-1.23,1.26,19.61,-11.98,7.46,-0.73,-5.27,-4.47,-4.61,1.20,6.18,53.50,-5.51,,2.84,-12.01,7.70,3.89,16.37,39.08,16.66,-12.15,-15.22,,-0.06,2.01,-15.64,7.28,13.64,-8.07,6.50,21.75。
经计算,,,样本均值,样本方差,样本标准差为。总起来看,这段时间,股市不太景气,平均每个交易日下跌0.8272点。应用EXCEL中数据分析,进行描述性统计,输出结果50个交易日上证指数涨跌的观测值
平均值 -0.8272 标准差 15.2283 区域 84.2 观测数 50 标准误差 2.1536 方差 231.9026 最小值 -30.7 最大(1) 53.5 中位数 -1.95 峰度 2.8306 最大值 53.5 最小(1) -30.7 众数 无 偏度 1.0575 求和 -41.36 置信度(95.0%) 4.3278 为了研究这段时间上海证券交易所股市的变化动态,要对统计数据进一步研究。由于上证指数的涨跌值是一个连续型随机变量,因而我们采用分组方法进行整理。区间 频 频率 累积频率 -30.7 1 0.02 0.02 -30.7~-18.67 3 0.06 0.08 -18.67~-6.64 12 0.24 0.32 -6.64~5.39 19 0.38 0.70 5.39~17.42 11 0.22 0.92 17.42~29.44 2 0.04 0.96 29.44~41.47 1 0.02 0.98 41.47 1 0.02 1.00 由整理的数据,我们可以作出频数(频率)直方图和累积频率直方图(见图)。把频率直方图中各个小矩形顶边的中点连接起来,就得到频率分布曲线,它的极限就是随机变量的概率密度函数。由累积频率所描述的累积频率曲线,它称为样本分布函数或经验分布函数,它的极限就是随机变量的分布函数。由此我们可以研究随机变量的分布规律,为证券投资决策提供可靠的理论依据。评注
1.理论依据
根据样本作描述性统计,作频率直方图观察密度函数的大致类型,作频率,研究分布函数。
2.应用与推广
样本的分布完全是由总体的分布来决定的。但在数理统计中,总体的分布往往是未知的,一般做法就是要通过样本找到一个分布来近似代替总体的分布;或者说根据样本对总体进行统计推断。因此,对样本数据进行必要的处理和
显示全部