系统发育分析教程剖析.docx
文本预览下载声明
系统发育分析教程
大致流程:
从18个mtDNA基因组中提取rRNA基因12S、16S和蛋白质基因ND1、ND2、CytB
分别进行序列比对,并进行比对精制
将精制比对结果串联成一个独立的分析文件,记录基因位置
NJ分析(MEGA)
MP分析(PAUP)
ML分析(RAXML)
贝叶斯分析(MRBAYES)
1.安装DNASTAR软件(又名Lasergene),软件内包含很多组件。
2.例子中有18个转录组的数据,ctrl+A,点住第一个文件拖到DNASTAR的MegAlign里。
确保MegAlign左侧的序列名称完全按照英文字母顺序来排。
3.双击第一条序列,在出来的选框中选取12S序列,点击NEXT。
不断重复,直至将所有物种的12S序列挑出来。
4.然后ctrl+A全选,点击OPTION下面的Genetic Codes,选择编码方式,根据基因来选,这里选择Vertebrate Mito。
点击Align下面的By Clustal w Method
等待程序对齐完成。
这时的序列应该已经对齐了。
5.将结果存为12S.MSF,MSF格式可以同时保存多个序列文件。
6.重复2-5步,分别挑出16S、ND1、ND2、CytB,存为相应的名称。
7.安装GeneStudioPro软件
8. 打开GeneStudioPro的SeqVerter软件。
点击Import sequences导入序列,保留gaps
全选序列,点击右侧Merge为一个Fasta序列。
点击Clear清空,如此将所有序列处理完,将文件的后缀改为fas
9.将改好名的文件复制入GBlocks的目录底下。
10.打开GBlock.exe,输入o,回车
输入上一步的文件名,回车
输入t,回车,直到第一项t项为所选的序列类型
输入g,回车,这时出现了两个文件
重命名文件将-gb移动到.fas之前
重复此步,将所有序列处理完,注意所选序列类型要正确。
检查所有序列是否已切整齐,且为3的倍数。
新建一个txt,命名为5genes
打开txt,输入:序列类型,序列名称=起始位-终止位,基因按照特定顺序排列
打开第一个序列,记录终止位置
选择Append alignment,按之前的顺序将序列全部导入,并记录下每个基因分布,即起始与终止位置,输入txt中
将串联好的序列存为5genes.fas
用mega打开序列
选择分析
然后选择核酸序列
选择遗传密码
选择distances/compute overall mean
选择替代模型为nucleotide/jukes-cantor
点击compute
遗传距离为0.396,在0x1之间,适合建NJ树
选择建NJ树
选择对所有位点进行计算,假如蛋白编码的基因第三位替代过饱和,就选择1和2
替代模型选择maximum composite likelihood
这个是默认设置
也可以改为另一个,填入之前预测的模型的gamma参数
再改bootstrap
运行
树已建好
用seqverter将序列转为nex格式
打开paup参数
设置外类群
设置搜索次数
设置bootstrap次数
设置brlens次数
保存并退出
打开paup,载入转换好的序列
保存操作命令
在操作行逐条输入并运行命令
Outgroup 外类群
Bootstrap nreps=1000 keepall
Contree
Describetrees
Savetrees from=1 to=1000
或者直接打开刚刚做好的参数直接运行,等程序运行完
产生了六个文件
把树拖进treeview查看
查看分数,一致性指数CI完全一致时为1,如果存在趋同进化或平行进化,则接近0.保留指数RI与CI类似。
将文件另存为phy4格式
准备好phy格式的序列文件和txt格式的注释,复制到RAXML文件夹底下。
打开RAXML下的AutoRun.txt文件,修改好相应参数,将后缀名改为bat。
参数注解如下:
-f 功能,选择了a,是最好用的,另外可以选择d,是最快的。
-m 模型类型,选择了GTRGAMMAI
-s 序列所在文件名
-n 后缀,自己设,这里设为5genes
-q 基因分布所在文件名
-# 分析10次
Pause 停止
运行Autorun.bat,开始跑数据。
假如要分别对密码子的每一位进行独立的分析,如对编码蛋白的基因进行分析,则对基因分布文件进行修改,如改为
DNA,ND_1=1753-2671\3
DNA,ND_2=1754-2671\3
DNA,ND_3=1755-2671\3
当程序跑完后,看最好的是哪次的结果。
这次最好的结果是第一次run的,可以把结果拖进treeview里查看
可以对Autorun进行修改而进行bootstrap,如改为:
显示全部