Mathematica基础数学实验14.ppt
文本预览下载声明
* 实验十四 回归分析简介 由于客观事物内部规律的复杂及人们认识程度的限制, 无法分析实际对象内在的因果关系, 建立合乎机理规律的数学模型. 数学建模的基本方法: 机理分析和测试分析. 通过对数据的统计分析, 找出与数据拟合最好的模型. 回归模型是用统计分析方法建立的最常用的一类模型. 简单介绍回归分析的数学原理和方法; 通过实例讨论如何选择不同类型的模型; 对软件得到的结果进行分析, 对模型进行改进. 一、线性回归分析基本概念 例1:F.Galton断言:儿子的身高会受父亲身高的影响, 但身高偏离父代平均水平的父亲, 其儿子身高有回归子代平均水平的趋势. K.Pearson给出了如下样本(单位: 英吋): 父亲身高 60 62 64 65 66 67 68 70 72 74 儿子身高 63.6 65.2 66.0 65.5 66.9 67.1 67.4 68.3 70.1 70.0 设父亲身高为x, 儿子身高为y. 显然, y与x有关系, 但这种关系并不是确定的, 即父亲身高x相同时其儿子身高 y并不是确定的, 也就是说, y 除受 x这一主要因 素的影响外, 还受到诸多随机因素的影响. 这种关系被称为相关关系. 在一般情况下, y为随机变量, 而 x为可控制或可精确观察的变量, 如年龄, 身高, 温度, 压力, 时间等, 因此不把x看作随机变量. 由于y为随机变量, 则对于x的每一个确定的值, 有它的分布. 若 y 的数学期望 Ey 存在, 则 Ey 取值随 x 的取值而定, 因此Ey是 x 的函数, 记作?(x), 称?(x)为 y 关于 x 的回归. 由于?(x)的大小在一定程度上反映在 x 处随机变量 y 的观测值的大小, 因此, 如果能通过一组样本来估计?(x), 则在一定条件下我们就能解决如下问题: (1)在给定的置信度下, 估计出当 x 取某一确定值时, 随机变量 y 的取值范围, 即所谓预测问题; (2)在给定的置信度下, 控制自变量 x 的取值范围, 使 y在给定范围内取值, 即所谓控制问题. 对于 x 的取定的一组不完全相同的值x1, x2, ···, xn,作独立的试验, 得到 n 对(一组)观察结果: (x1, y1), (x2, y2), ···, (xn, yn), 其中 yi 是 x=xi 处对随机变量 y 的观测结果. 这 n 对观察结果就是一个容量为 n 的样本. 由样本估计?(x), 首先需要推测?(x)的形式. 方法一, 根据所述问题的实际意义, 可以知道?(x)的形式; 方法二, 当自变量仅有一个时, 描绘出样本的散点图; 方法三, 试探性回归. 对于父子身高问题, 我们根本就不知道其关系的形式, 但我们通过散点图, 发现儿子身高与父亲身高呈线性关系, 因此可设: y = a + bx + ? 其中?~N(0, ?2), 即y~N(a + bx, ?2), a, b, ?与x无关. 利用mathematica5.0软件包作线性回归: Statistics`LinearRegression`(*调入线性回归软件包*) d={{60,63.6},{62,65.2},{64,66},{65,65.5},{66,66.9},{67,67.1}, {68,67.4},{70,68.3},{72,70.1},{74, 70}};(*输入数据*) Regress[d,{1,x},x}(*线性回归*) 父子身高的线性回归分析表: 模型可靠性非常好. 回归方程: y = 35.9768+0.46457x. 方差估计值为: s2 = 0.186697 二、线性回归分析计算 输出结果的说明: ParameterTable:参数表, Estimate: 系数估计 SE: 标准差 TStat:T 统计量 PValue: 检验统计量的概率值 RSquared:相关系数R2, AdjustedRSquared:修正的相关系数, EstimatedVariance:方差?2的估计值s2. ANOVATable:方差分析表, Model:模型, Error:误差, Total:总和, DF: 自由度 SumOfSq: 平方和 MeanSq: 均方偏差 FRatio: F比 三、一元线性回归的预测区间: 由于 则 y0的置信度为1–?的预测区间为: 其中s为均方差?的估计值; 为y在x0处的估计值; S
显示全部