源代码phdace两种sequence格式解读-peaker.pdf
#源代码#Phd和Ace两种sequence文件格式解读
Peaker
PhdFiles
序列的tracedata数据是在Phredprogram中的。这
个程序返回的是bases碱基,assignsqualityvalues,然后将basecalls和
qualityvalue写入到输出文件中,后缀为.phd.1.
下面的代码就展示了如何从.phd.1后缀文件中获取数据。
但是这里要说明一下,如果你想要从数据中获取sequence序列信
息,其实使用SeqIO要更方便一些。
AceFiles
在一个典型的序列分析策略中,有一些重合的sequence或reads经
常被组装为一个长的连续性序列数据。这个连续性的数据我们成为
“contig”并且通过特殊的程序如CAP3或Phrap来特殊处理。Contigfiles
连续性序列数据可以被用于进行后续分析。在Biopython中提供了一个
处理这一contig数据的库,就是Ace模块中的ACEParser解析器。对
于每一个.ace为后缀的文件,我们都可以获取相应的contigs数量,read
个数,以及一些其他文件信息。
Ace.read()函数可以从每一个contig数据中抓取相应的文本信息。
方法如下所示
我们从Bio.Sequencing库中调用了Ace函数,首先通过Ace.read()
一个以“.ace”为后缀的文件,然后建立一个for循环,每一个循环
中代表一个contig,然后我们对其进行分析和数据提取。可以提取的信
息包括下面内容
除此以外,我们还可以对每一行contig中的reads进行分析,同样
嵌套一个循环,在contig中对于每一个read,我们进行下面操作
喜欢本文吗?欢迎加入云生信跟大家一起进步~