数学地质第六章-判别分析:线性-逐步.ppt
文本预览下载声明
第六章判别分析 内容提要 第一节 判别分析概述 第二节 费歇准则下的两类线性判别模型 第四节 逐步判别分析 第五节 判别分析在地质上的应用 第一节 判别分析概述 主要内容: 一、判别分析的概念 二、判别函数 三、判别分析的类型 四、建立判别函数的准则 一、判别分析的概念 在自然界中,经常遇到对研究对象进行分类的问题。分类包括两个方面的内容:其一,是研究对象存在着几种类型,即能分为多少类;其二,在研究对象类型数目已知的情况下,某一研究个体应该属于哪一类。后者,属于判别分析研究的范畴。 地质学中遇到的分类问题很多。例如,根据岩矿鉴定,分辨某一砂岩属于海相砂岩或陆相砂岩;在油田开发中,根据钻井的点测或化验数据,判别是否遇到油层、水层或干层;在地球化学中,根据岩体的化验数据,分辨岩体是否是含矿岩体;在煤田勘探中,根据煤层煤质的数据,判别某一勘探区的某一煤层,属于相近勘探区同一煤系诸煤层的哪一层等。 一、判别分析的概念 判别分析主要解决两个问题: 1)根据什么指标来判别(分辨)已知的类型,即建立判别函数; 2)对于可能来自已知类型的某些未知样品,如何判定它们归属已知类型中的哪一类。 判别分析就是借助于已知类型的若干变量,建立起一个或多个判别函数,从而决定未知对象归属问题的一种多元统计方法。 二、判别函数 若有两类物体,在统计学上称为总体(或母体)。它们的分布状态均可以利用p个变量,在p维空间中用两个椭球状点集表示出来。 设有A、B两个总体,从中抽取两组样品,每个样品有两个变量,现以变量为轴,将A、B两组样品在二维空间中表示出来(图6-1)。 二、判别函数 二、判别函数 由图可以看出,两类总体以任何一个变量为基础都不能将其明显地区分开。两类同一变量之间,总有些重叠部分。 如果能设法利用两个或多个变量的线性组合构成一个合适的综合判别指标,并使其能最大限度地缩小不易判别的重叠部分,从而提高正确判别的概率,则称变量的线性组合这个综合指标 为判别函数(图6-1中直线Ⅰ) 二、判别函数 二维空间中,在两点集之间垂直于y轴且把两个点集分开的直线(图6-1中直线Ⅱ)称为判别直线。其直线方程为 在多维情况下,判别直线将是一个平面(p=3)或(p-1)维超平面(p3),其方程如下: 由此看出,判别分析的特点是能够大大缩减向量的维数,而不致损失很多信息。 三、判别分析的类型 1)根据母体(总体)个数 可分为两类(两组)判别分析和多类(多组)判别分析。 2)根据判别函数类型 可分为线性判别和非线性判别分析。 3)按判别方法 可分为判别分析、逐步判别和序贯判别分析等 四、建立判别函数的准则 判别函数是在一定的规则下建立起来的。因此,判别函数的建立,就须依照一定的准则。最常用的有以下准则: 1)费歇准则(主要适用于二类判别); 2)贝叶斯准则(适用于多类判别); 3)最小二乘法准则; 4)库巴克准则; 5)不稳定性准则等。 第二节 费歇准则下的两类线性判别模型 主要内容: 一、费歇准则的基本含义 二、两类线性判别函数的建立 三、分界值计算和判别法则 四.判别函数的显著性检验及判别率 五.变量的选择 六、两类判别应用举例与小结 一、费歇准则的基本含义 一、费歇准则的基本含义 假定判别函数已经建立,显然每个样品的p个变量值代入式(6-4)中就可求得一个y值,则此值称为样品的判别计量(或判别值)。 n个样品有n个判别值,记为 一、费歇准则的基本含义 每类样品判别值的平均值,称为类平均值,记为 一、费歇准则的基本含义 如果A、B两母体客观上存在着差别,则它们的类平均值 与 也会有一定的差别。使两个母体分开的综合指标值(y0),称为两母体的分界线,或称临界值(图6-2)。 一、费歇准则的基本含义 显然,判别分析要求找到的判别函数y=f(x1,x2,…,xp)使两类(组)间差别愈大愈好,即 并使两类组内离差平方和(或组内变差)愈小愈好,即 一、费歇准则的基本含义 将上述两个条件结合起来,要求 建立判别函数 时,遵循使I值最大的原则是由费歇(1936)最早提出的,故称其为费歇准则。有时称费歇准则为“最大分离”准则。 二、两类线性判别函数的建立 根据多元函数求极值的方法,诸 应满足下列方程组 二、两类线性判别函数的建立 从式(6-11)中解出 的数值,判别函数即建立。 二、两类线性判别函数的建立
显示全部