文档详情

判别分析建模.ppt

发布:2019-05-05约7.35千字共37页下载文档
文本预览下载声明
1. 读取每个碱基对所占的百分比 2. 读取各种三联体所占的百分比 在MATLAB生物工具箱中有很多有用的命令: Bases = basecount(seq) 其中seq是一个DNA序列,放在单引号内,输出是各碱基对 的个数 例如seq=aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg; Bases = basecount(seq) Bases = A: 33 C: 19 G: 44 T: 15 [Bases.A,Bases.C,Bases.G,Bases.T]/sum([Bases.A,Bases.C,Bases.G,Bases.T]) ans = 0.2973 0.1712 0.3964 0.1351 对于多个序列读取问题,参见《基于MATLAB的数学实验》第三章 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是21世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构,例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸;又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。 目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题。 下面有20个已知类别的人工制造的序列,其中序列标号1~10为A类,11~20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21~40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入)。 判别分析建模方法可以解决的实际问题 1. 各种综合评价问题???(彩票中的数学) 基本思路:根据评价指标的属性得到最佳理想方案,然后判别已知的各方案与理想方案的接近程度,进而得到各方案的排名 2. 公务员招聘??? 各类公务员招聘条件?矩阵(各行分别为一类) 应聘对象的素质?矩阵(每行为每个应聘者) 于是转化为判别分析问题 3. 艾滋病疗效分析??? 4. 奥运超市??? 5. 施肥效果分析??? 6. 甲A排名??? apf=[1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96]; af=[1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08]; s1=cov(apf); s2=cov(af); n1=6;n2=9;p=2;s=(5*s1+8*s2)/13; Q01=(n1-1)*(log(det(s))-log(det(s1))-p+trace(inv(s)*s1)); Q02=(n2-1)*(log(det(s))-log(det(s2))-p+trace(inv(s)*s2)); p1=1-chi2cdf(Q01,((p*(p+1))/2)) p2=1-chi2cdf(Q02,((p*(p+1))/2)) 模型评价分析的有关问题 对于建立的模型求解以后,需要对模型的优劣进行评价,这是论文体现闪光点的地方,通常应注意以下问题: 1. 规划模型必须进行灵敏度分析 2. 判别分析建模必须进行误差分析:即误判率的计算
显示全部
相似文档