第五章 判别分析.ppt
文本预览下载声明
例2中: U1= 0.22/0.2373=0.93 U2=0.204/18.256=0.011 可见,第2个变量的区分能力比第1个变量大,因为从统计量来说,U2小于U1。 (5-12) 因此用Ur做为检验变量x(r)判别能力的Wilks Λ 统计量。是否能够引入,还需进行假设检验。 式中N=n1+n2+···+ng,即样品的总数。 F1服从自由度为(G-1)和(N-G-p)的F分布。对于给定的检验水平α ,查Fα(G-1,N-G-p)分布表, 得临界值Fα,若F1Fα, 变量x(r)的判别能力强。 统计量: 假设H0:μ1=μ2 =···=μG (总体间无差异) (2)“剔除”变量x(r) 的Wilks Λ 统计量 设逐步判别进行了p步,共引入了p个变量(前p个都是判别能力强的变量,没有被剔除),记为: 它的第p+1步拟剔除变量x(r) (r∈(r1,r2,…,rp)) ,此时,将x(r) 的判别能力视为第p步要引入x(r) 的判别能力,即: 统计量F2服从自由度为(G –1)和(N – G – p + 1)的F分布。对于给定的检验水平α ,查Fα(G-1,N-G-P+1)分布表得临界值Fα* ,若F2 ≤Fα* , 变量x(r) 的判别能力小,应剔除变量x(r)。 统计量 (5-13) 逐步判别建立判别函数的过程与逐步回归相似,不同之处是逐步判别分析要对W、T 两个矩阵进行变换。它的第p+1步不论是引入还是剔除变量x(r),都是对W和T 矩阵进行一次变换。 (5-14) 第p+1步消去W、T 矩阵第r列的变换公式为: 3. 逐步判别的变换公式 (5-15) 1. 判别函数的系数 若逐步判别分析进行了p步结束,共引入了v个变量 (v ≤ m),那么按下式计算判别函数的系数: 三、判别函数的系数和对样品的判别 2. 对样品的判别 样品 属于a g的函数值为Fg(X) ,若 , 则样品X∈ak 。 判别函数为: X∈ak 的条件概率为: 图5-5 判 别 分 析 流 程 图 输入n、m、G和样品观测值 输入先验类型、PP值 剔除变量否? 变换矩阵W和T,引入变量数L=L-1 计算类内均值、总均值、类内离差矩阵 W和总离差矩阵T,引入变量数L=0 变换W、T矩阵,计算判别系数和判别 矩阵,输出中间结果,引入变量数L=L+1 L=0? 改变PP ? 引入变量否? 开 始 输入临界值F1和F2 结 束 N Y N N N Y Y Y §4 应用算例简介 例1 判定生油岩热演化阶段 基本思想:视不同热演化阶段的生油岩为不同的总体。建立判别函数,可用来判定生油岩样品的热演化阶段。(详见教材)。 根据目前研究,可把生油岩的热演化过程分为四个阶段,即未成熟、成熟、高成熟和过成熟阶段,因此可视为四个总体。 (1)在上述总体中取66块生油岩样品,统计它们地层年龄(t)、现今地层温度(T)和埋藏深度(H)。 (2)拟定判别变量 (3)建立四个总体的判别函数 取引入和剔除临界值F1=F2=1.0,共引入x1, x2, x3和x5四个变量,得判别函数: 在此拟定6个变量,它们是: 未成熟 成 熟 高成熟 过成熟 x1=T+273,x2=t ,x3=H, x4=1/H, x5=ln(T+273),x6=1/(t+273) H x3 4 t x2 3 T+273 x1 2 ln(T+273) x5 1 变量名 变量号 引入顺序 变量引入顺序 问:变量的引入顺序说明了什么? 某种程度上说明了变量区分总体能力的强弱顺序。 (4)应用 珠江口盆地第三系生油岩为中新世至晚渐新世沉积,地层绝对年龄为16~30百万年,埋藏深度为2200米,现今地层温度为104℃。取地层绝对年龄为25百万年,按上述判别函数计算,得: 其中F3(X)=514582.5最大,因此判珠江口盆地第三系生油岩处在热演化高成熟阶段,与实际情况相符。 东濮凹陷西部沙三段有三角洲、浊流和风暴流三种沉积相。在上述三种沉积相中取了45块岩样,镜下统计其成份成熟度指标x1(石英/(长石+岩屑))、杂基含量x2和胶结物含量x3三项参数。建立判定三角洲、浊流和风暴流沉积相的判别函数为: 例2 识别沉积相 把某沉积环境下形成的岩石看成总体,对不同的总体取样,可建立判别岩样沉积相的判别函数,用以识别碎屑岩的沉积相。 应用实例: 资料
显示全部