文档详情

系统发育分析教程剖析.docx

发布：2017-05-07约字共32页下载文档

文本预览下载声明

系统发育分析教程大致流程：从18个mtDNA基因组中提取rRNA基因12S、16S和蛋白质基因ND1、ND2、CytB 分别进行序列比对，并进行比对精制将精制比对结果串联成一个独立的分析文件，记录基因位置 NJ分析(MEGA) MP分析(PAUP) ML分析（RAXML）贝叶斯分析（MRBAYES） 1.安装DNASTAR软件（又名Lasergene），软件内包含很多组件。 2.例子中有18个转录组的数据，ctrl+A,点住第一个文件拖到DNASTAR的MegAlign里。确保MegAlign左侧的序列名称完全按照英文字母顺序来排。 3.双击第一条序列，在出来的选框中选取12S序列，点击NEXT。不断重复，直至将所有物种的12S序列挑出来。 4.然后ctrl+A全选，点击OPTION下面的Genetic Codes,选择编码方式，根据基因来选，这里选择Vertebrate Mito。点击Align下面的By Clustal w Method 等待程序对齐完成。这时的序列应该已经对齐了。 5.将结果存为12S.MSF,MSF格式可以同时保存多个序列文件。 6.重复2-5步，分别挑出16S、ND1、ND2、CytB，存为相应的名称。 7.安装GeneStudioPro软件 8. 打开GeneStudioPro的SeqVerter软件。点击Import sequences导入序列，保留gaps 全选序列，点击右侧Merge为一个Fasta序列。点击Clear清空，如此将所有序列处理完，将文件的后缀改为fas 9.将改好名的文件复制入GBlocks的目录底下。 10.打开GBlock.exe，输入o,回车输入上一步的文件名，回车输入t,回车，直到第一项t项为所选的序列类型输入g，回车，这时出现了两个文件重命名文件将-gb移动到.fas之前重复此步，将所有序列处理完，注意所选序列类型要正确。检查所有序列是否已切整齐，且为3的倍数。新建一个txt，命名为5genes 打开txt，输入：序列类型，序列名称=起始位-终止位，基因按照特定顺序排列打开第一个序列，记录终止位置选择Append alignment,按之前的顺序将序列全部导入，并记录下每个基因分布，即起始与终止位置，输入txt中将串联好的序列存为5genes.fas 用mega打开序列选择分析然后选择核酸序列选择遗传密码选择distances/compute overall mean 选择替代模型为nucleotide/jukes-cantor 点击compute 遗传距离为0.396，在0x1之间，适合建NJ树选择建NJ树选择对所有位点进行计算，假如蛋白编码的基因第三位替代过饱和，就选择1和2 替代模型选择maximum composite likelihood 这个是默认设置也可以改为另一个，填入之前预测的模型的gamma参数再改bootstrap 运行树已建好用seqverter将序列转为nex格式打开paup参数设置外类群设置搜索次数设置bootstrap次数设置brlens次数保存并退出打开paup，载入转换好的序列保存操作命令在操作行逐条输入并运行命令 Outgroup 外类群 Bootstrap nreps=1000 keepall Contree Describetrees Savetrees from=1 to=1000 或者直接打开刚刚做好的参数直接运行，等程序运行完产生了六个文件把树拖进treeview查看查看分数，一致性指数CI完全一致时为1，如果存在趋同进化或平行进化，则接近0.保留指数RI与CI类似。将文件另存为phy4格式准备好phy格式的序列文件和txt格式的注释，复制到RAXML文件夹底下。打开RAXML下的AutoRun.txt文件，修改好相应参数，将后缀名改为bat。参数注解如下： -f 功能，选择了a,是最好用的，另外可以选择d，是最快的。 -m 模型类型，选择了GTRGAMMAI -s 序列所在文件名 -n 后缀，自己设，这里设为5genes -q 基因分布所在文件名 -# 分析10次 Pause 停止运行Autorun.bat,开始跑数据。假如要分别对密码子的每一位进行独立的分析，如对编码蛋白的基因进行分析，则对基因分布文件进行修改，如改为 DNA,ND_1=1753-2671\3 DNA,ND_2=1754-2671\3 DNA,ND_3=1755-2671\3 当程序跑完后，看最好的是哪次的结果。这次最好的结果是第一次run的，可以把结果拖进treeview里查看可以对Autorun进行修改而进行bootstrap，如改为：

显示全部

相似文档