基于聚类技术的蛋白质同源性分析规划.doc
文本预览下载声明
渤海大学
基于聚类技术的蛋白质同源性分析规划
专业:计算机科学与技术(软件开发)
年班级:11级9班
小组成员:陈静欢 刘礼越 王 晨
吴雪键 岳政燃 赵胜超
指导教师:赵连鹏
1.1研究问题
(1)实验材料来源问题
(2)如何提取pdb文件中氨基酸序列
(3)如何将提取出来的氨基酸序列复制到新建的txt文件中
(4)如何调用txt文件中已经提取出来的氨基酸序列
(5)如何将氨基酸序列三个字符变成一个
(6)序列比对问题
1.2研究背景
蛋白质结构决定蛋白质功能。随着各种基因组计划的完成,产生了海量的蛋白质序列数据,通过传统试验的方法已经无法对这些数据进行及时的处理。因此,利用计算方法进行蛋白质三维结构预测已成为当前生物信息学的研究热点之一。在未来5到10年内,越来越多的蛋白质结构将会被确定,同源建模技术将具有更广泛的应用前景。然而,同源建模法存在两方面的严重缺陷:结构建模数量不足和目标模板比对不够准确。结构存在蛋白质进化过程中其结构功能相对独立。在interpro数据库中多于三分之二的结构域能在pdb中找到其相应结构,而且85%以上的蛋白质序列包含只少一个或多个结构域。因此以结构域聚类为模板可以预测出更多的蛋白质结构。模式识别,也被称为分类或者是统计分类,模式识别学科的研究目的就是为了构建能够自动班别输入数据类别信息的分类系统。聚类分析是一种无监督的模式识别方法,是模式识别研究中的一个重要领域。无监督的聚类分析算法能够探索输入数据的内部群组结构,目前已经被广泛应用于各种数据分析场合,包括计算机视觉分析,统计分析,图像处理,医疗信息处理,生物科学和心理科学等。聚类分析的基本原理就是将输入数据分成不同的群组,同一组中的成员拥有相似的特性,相反不同组中的成员特性相异。
1.3解决方法
1.3.1实验材料来源问题
★ INSD,国际核酸序列数据库(International Nucleotide Sequence Databank)。由日本的DDBJ、欧洲的EMBL和美国的GenBank三家各自建立和共同维护。
EMBL库,欧洲分子生物学实验室的DNA和RNA 序列库。 http://www.ebi.ac.uk/embl.html
GenBank ,美国国家生物技术信息中心 (NCBI)所维护的供公众自由读取的、带注释的DNA序列的总数据库。/Web/Genbank/
DNA Databank of Japan (DDBJ) ,日本核酸数据库。 http://www.ddbj.nig.ac.jp/
GSDB是由美国国家基因组资源中心(NCGR)维护的DNA序列关系数据库(Genome Sequence DataBase)。 /gsdb/
★ TIGR DATAbase,是世界上最大的cDNA数据库,还有大量的EST序列和人类基因索引(HGI)。 /tdb/hcd/overview.html#includestdio.h
#includestring.h //字符串处理头文件
#includestdlib.h //标准库头文件
#includedos.h
main()
{
int i=0,j=0,l,ch;
char other[200][10],dz[10],kc[500][5],string[50];//other是列出的文件;dz是pdb文件名的长度;//kc只要是存蛋白质序列字符串
char seqres[]={SEQRES};
char my_cmd[20] = DIR/B/A-D ,name[15]= other.txt;//主要是列出每个文件名
printf(请输入文件地址:\n);
scanf (%s,dz);//输入地址
strcat(my_cmd,dz);//把字符串dz接到my-cmd后面
strcat(my_cmd,name);//把字符串name接到my-cmd后面
remove(other.txt);
system(my_cmd);//新建一个other文件
FILE *fp,*fpw;
if((fp=fopen(other.txt,r))==NULL)//只读文本的方式打开 txt
{ puts(cant open file); exit(0) ; }//打不开txt就退出
for(i=0;!feof(fp)i1000;i++)//没有遇到文件结束就继续for循环
{
fscanf(fp,%s,other[i]);//读文件名,存到二维数组
}
l=i-1;//PDB文件的总个数
printf
显示全部