文档详情

源代码phdace两种sequence格式解读-peaker.pdf

发布:2025-03-10约1.49千字共3页下载文档
文本预览下载声明

#源代码#Phd和Ace两种sequence文件格式解读

Peaker

PhdFiles

序列的tracedata数据是在Phredprogram中的。这

个程序返回的是bases碱基,assignsqualityvalues,然后将basecalls和

qualityvalue写入到输出文件中,后缀为.phd.1.

下面的代码就展示了如何从.phd.1后缀文件中获取数据。

但是这里要说明一下,如果你想要从数据中获取sequence序列信

息,其实使用SeqIO要更方便一些。

AceFiles

在一个典型的序列分析策略中,有一些重合的sequence或reads经

常被组装为一个长的连续性序列数据。这个连续性的数据我们成为

“contig”并且通过特殊的程序如CAP3或Phrap来特殊处理。Contigfiles

连续性序列数据可以被用于进行后续分析。在Biopython中提供了一个

处理这一contig数据的库,就是Ace模块中的ACEParser解析器。对

于每一个.ace为后缀的文件,我们都可以获取相应的contigs数量,read

个数,以及一些其他文件信息。

Ace.read()函数可以从每一个contig数据中抓取相应的文本信息。

方法如下所示

我们从Bio.Sequencing库中调用了Ace函数,首先通过Ace.read()

一个以“.ace”为后缀的文件,然后建立一个for循环,每一个循环

中代表一个contig,然后我们对其进行分析和数据提取。可以提取的信

息包括下面内容

除此以外,我们还可以对每一行contig中的reads进行分析,同样

嵌套一个循环,在contig中对于每一个read,我们进行下面操作

喜欢本文吗?欢迎加入云生信跟大家一起进步~

显示全部
相似文档