天河系列超级计算机-长沙科学技术协会.PPT
文本预览下载声明
生物信息学 (Bioinformatics)是生物学与计算机科学、信息学及应用数学交叉融合而衍生出的新兴边缘学科。数学用于生物学的研究已有百年的历史 ,但计算机用于生物学的研究则是以分子生物学的发展为契机的 ,目前其主要动力源于分子生物学中的基因组学分支。因为基因组学的研究涉及了海量的且关系复杂的关于DNA和蛋白质序列及结构数据的存储、处理和分析 ,所以离开计算机的支持是绝对无法实现的。因此生物信息学当前的主要任务可理解为 :将数学的、计算机科学的和生物学的各种工具应用于基因组信息的获取、加工、存储、分类、检索与分析 ,以阐述和理解基因组学研究获得的大量数据中所包含的生物学意义。由于生物信息学是分子生物学研究的一个非常有用且必不可少的工具 ,所以一些发达国家的政府与科研机构都非常重视 ,纷纷建立相应的机构或部门进行这方面的研究、开发与服务。如美国国家生物信息中心 (NationalCenterofBiotechnologyInformation ,NCBI)、欧洲分子生物学网络 (EuropeanMolecularBiologyNetwork ,EMBNet)等 * 生物信息学 (Bioinformatics)是生物学与计算机科学、信息学及应用数学交叉融合而衍生出的新兴边缘学科。数学用于生物学的研究已有百年的历史 ,但计算机用于生物学的研究则是以分子生物学的发展为契机的 ,目前其主要动力源于分子生物学中的基因组学分支。因为基因组学的研究涉及了海量的且关系复杂的关于DNA和蛋白质序列及结构数据的存储、处理和分析 ,所以离开计算机的支持是绝对无法实现的。因此生物信息学当前的主要任务可理解为 :将数学的、计算机科学的和生物学的各种工具应用于基因组信息的获取、加工、存储、分类、检索与分析 ,以阐述和理解基因组学研究获得的大量数据中所包含的生物学意义。由于生物信息学是分子生物学研究的一个非常有用且必不可少的工具 ,所以一些发达国家的政府与科研机构都非常重视 ,纷纷建立相应的机构或部门进行这方面的研究、开发与服务。如美国国家生物信息中心 (NationalCenterofBiotechnologyInformation ,NCBI)、欧洲分子生物学网络 (EuropeanMolecularBiologyNetwork ,EMBNet)等 * 我们在研的生物大数据分析系统基于天河II号超级计算平台实现,提供生物大数据分析服务,包括快速组学数据分析、快速组学数据检索、海量数据标注和海量数据知识发现等生命科学研究中迫切需求的服务。这套系统的特点是,利用大数据分析工具支撑,提供高效率、高质量的服务。这些工具涉及的基本的数学方法,我们把他们包封成一套大数据分析基本数学方法库,可调用该方法库,可以定制用户的应用,更好地服务用户。 * 在TH上完成了移植和算法优化,3倍-50倍的增长. 优点:更精准、时空开销更小 * 在TH上完成了移植和算法优化 * 基因组研究中计算量最大,但也最基本的问题,是基因比对。设想做一次google搜寻就是一次比对任务,而基因组比对要求在1个小时中在一台机器上完成上百亿次的google搜寻,这既便是对于google来说也是一个一直亟待提高的问题。通过充分利用天河一号的GPU资源,SOAP3-dp比世界第二快三倍的速度,却依旧保持着最高的准确度。现在有了天河二号,通过充分利用三块MIC卡协同工作,我们将获得4倍于天河一号的速度,将之前需要一天完成的分析缩短至几个小时。 * 输入数据格式:参考序列(fasta格式)、短序列(fastq格式) 输出:比对结果(sam格式) 输入数据规模: 90个WGS样本,17.47T 输出数据规模: 31.82T 由于比对过程中短序列之间数据不相关,直接把整个任务分发到932个计算机节点上并行执行。 每个计算节点包括两个CPU和三个MIC卡,实验分析发现每个CPU起12个进程,每个MIC卡上起224个线程(56个计算核心,每核4个硬件线程)性能最佳,此时硬件资源使用率最高。 测试环境:天河二号 单计算节点: CPU:两路12核,两颗 Intel Ivy-Bridge E5-2692 12核 CPU,2.2GHz 三块Intel Xeon Phi 31S1P MIC 众核加速卡,每块MIC卡57核心,1.1GHz 内存:88GB = 64GB (主存) + 24GB (MIC卡,8GB*3) * 输入数据格式:参考序列(fasta格式)、短序列(fastq格式) 输出:比对结果(sam格式) 输入数据规模: I137_L5(271GB),I148_L6(530GB) 输出数据规模: I137_L5(443GB),I148_L6(851GB) 由于比对过程中序列之间数据相关性较低,而且序列分布
显示全部