文档详情

多元统计分析判别分析.ppt

发布:2024-05-02约9.69千字共46页下载文档
文本预览下载声明

定理1:设有个总体:,已知的联合密度函数为,先验概率为,错判损失为,则贝叶斯(Bayes)判别的解为其中……(6)下面给出贝叶斯(Bayes)判别的解的主要结论:第32页,共46页,2024年2月25日,星期天3.3费希尔判别费希尔判别的基本思想:借助于方差分析的思想,利用投影将元的数据投影到某一个方向,使得投影后组与组之间的差异尽可能的大,然后根据一定的判别规则对新样本的类别进行判断。首先构造一个线性判别函数……(7)可见上面的函数将元的数据投影到了一个方向,系数的确定原则是使得总体间的差异最大,总体内部的离差最小。第33页,共46页,2024年2月25日,星期天A.确定线性判别函数设有个元总体:,它们的均值为:;协方差为:。在的条件下,有令 这里确定,使得个总体间的差异最大,总体内部的离差最小,则应该达到最大。第34页,共46页,2024年2月25日,星期天为了确保的唯一性,不妨设。因此,问题转化为:在条件约束下,求使得式达到最大——这是大家非常熟悉的条件极值的问题。根据拉格朗日乘子法:求解得……(8)由方程(8)第一式知,是的特征根,是相应的特征向量。可以证明(的大小可以衡量判别函数的判别效果,故称为判别效率)。设的非零特征根为,相应的满足约束条件的特征向量为,显然,取时达到最大。第35页,共46页,2024年2月25日,星期天B.确定判别规则假设系数已经求出,那么线性判别函数就完全确定下来,对于一个新的样品,可以构造下面的判别规则:……(9)第36页,共46页,2024年2月25日,星期天3.4判别分析模型的显著性检验建立了判别分析模型以后还需要对模型进行评价,这就需要对判别分析模型的显著性进行检验,主要包括两个方面:判别效果的检验和各变量判别能力的检验[1,2]。所谓判别效果的检验就是检验k个总体的均值是否有显著的差异,反映了采用判别分析模型的有效性问题;各变量判别能力的检验反映的是各指标(因素)对判别分类所起的作用时候显著。具体的检验方法因为过于复杂,这里不再赘述。需要说明的是,作为多元统计分析中的经典方法,判别分析在许多关于多元统计分析的教材中均有详细而深刻的论述。第37页,共46页,2024年2月25日,星期天4.DNA序列分类问题的求解关于DNA序列分类问题的讨论和分析,我们在第1部分和第2部分已经作了详细的分析和讨论。这里,我们将根据多元统计分析的知识建立判别分析模型来求解DNA序列的分类问题(这里只求解问题一)。首先,需要提取每条序列的所蕴含的特征——因为将序列的全部信息都作为指标(因素)来建立判别模型是不可能的。第38页,共46页,2024年2月25日,星期天A.特征的提取DNA序列中所蕴含的信息是非常丰富的,因此,如何提取特征、提取什么特征是一个非常困难的问题——这个问题涉及到生物学的知识,此处将不深入展开讨论。我们考虑采用序列中4个碱基A,T,C,G的含量百分比作为DNA序列的特征。为了便于讨论,我们用表示碱基A在序列中所占的百分比;表示碱基T在序列中所占的百分比;表示碱基C在序列中所占的百分比;表示碱基G在序列中所占的百分比。因为,+++=1,因此、、和中只有三个变量是独立的,不失一般性,我们选取、和为指标,以表示第个DNA序列的特征向量,换句话说,“完全”代表第个DNA序列。第39页,共46页,2024年2月25日,星期天

显示全部
相似文档