概率数理统计.ppt
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)5333535364344454748(11)(12)(13)(14)(15)(16)(17)(18)(19)(20)52555864646568697074(21)(22)(23)(24)(25)(26)(27)(28)(29)(30)78808080828384848589最小数(90%)下四分位数(75%)中位数(50%)上四分位数(25%)最大數班级成绩分析第18页,共37页,星期六,2024年,5月Box图(3)反映数据的中心位置、波动和非对称程度中位数:中心四分位数差(IQR):波动程度上下边缘:异常点作用观察异常点比较几批数据形状成績甲班乙班丙班第19页,共37页,星期六,2024年,5月经验分布函数F(x)为总体的分布函数,称为经验分布函数或样本分布函数目标:利用经验分布估计总体的分布第20页,共37页,星期六,2024年,5月经验累积分布图(empiricalcumulativedistribution)总体的分布函数称为理论也分布函数经验分布函数利用样本估计和推断总体的分布函数F(x).高数成绩53335353643444547485255586465686969707478808080828384848589第21页,共37页,星期六,2024年,5月正态概率分布图蓝色’+’表示样本数据叠加红线是连接上四分位数和下四分位数的直线如果数据服从正态分布,样本数据画出的图成线性第22页,共37页,星期六,2024年,5月重要统计量统计量:由随机变量组成的一随机样本的函数,不含任何未知参数样本均值,描述样本中心趋势样本方差,描述样本的波动性样本标准差S,样本方差的平方根 第23页,共37页,星期六,2024年,5月抽样分布统计推断从样本中推断总体主要目标:归纳和预测统计量的概率分布称为抽样分布总体大小样本容量选择样本的方法例:依据的抽样分布对参数做出推断第24页,共37页,星期六,2024年,5月均值的抽样分布样本容量为n的的抽样分布实验不断重复(样本容量为n),产生多次的值时的一个分布描述样本在总体均值μ附近的平均变化n个随机样本来自~N(μ,σ2)总体,均值~N(μ,σ2/n)第25页,共37页,星期六,2024年,5月定义:设{Xk}为相互独立的随机变量序列,有有限的数学期望E(Xk)=μk和方差D(Xk)=σk2,令若对于一切实数x,有则称随机变量序列{Xk}服从中心极限定理(CentralLimitTheorem)标准正态分布第26页,共37页,星期六,2024年,5月定理(林德贝尔格-勒维,Lindeberg-Levy)设{Xk}为相互独立的随机变量序列,服从同一分布,且具有数学期望E(Xk)=μ和方差D(Xk)=σ2,则随机变量的分布函数Fn(x),对于任意x,满足第27页,共37页,星期六,2024年,5月如果从一个未知分布的总体抽样,不管它是有限还是无限的,假设样本容量足够大时,样本均值的抽样分布会近似于N(μ,σ2/n)的正态分布。第28页,共37页,星期六,2024年,5月中心极限定理应用n≥30,的正态分布逼近较好n30,总体近似正态分布时,逼近效果较好如果总体~正态分布,无论n大小,的抽样分布精确服从正态分布第29页,共37页,星期六,2024年,5月若一个随机变量X可以看做许多微小而独立的随机因素作用的总和,每一种因素的影响很小,不产生决定作用,则X一般可以认为近似地服从正态分布例:测量误差X 影响因素:温度X1、湿度X2、观察视线X3、心情X4等 微小的、随机的,而且相互没有影响 测量的总误差是上述各个因素产生的误差之和:∑Xi某样本的线性拟合模型可以描述为:第30页,共37页,星期六,2024年,5月例:将一颗骰子连掷100次,则点数之和不少于500的概率是多少?解:设Xk为第k次掷出的点数,k=1,2,…,100,则X1,…,X100独立同分布.由中心极限定理:第31页