99网
您的当前位置:首页Mega软件的使用1

Mega软件的使用1

来源:99网
MEGA软件的使用

Mega软件输入数据的格式

Mega软件输入数据的格式比较简单,在众多遗传学分析软件中是比较容易制作的一种。

首先,如果输入数据是一般的DNA或RNA序列,则有如下要求:1)文件扩展名以*.meg或*.txt结尾都行;2)输入数据文件,第一行必须有Mega程序所需的特殊标记“#MEGA”;3)“TITLE”位于输入文件的第二行,后边可以跟上一些说明性字符,这些字符在输出结果中会显示出来。在与“Title”同一行上的字符才有效,而且字符总数不能超过128,超过的也会被忽略.4)在“#MEGA”和“TITLE”之后,在分析数据之前可以一行或多行的说明性文字。这些文字可用来说明诸如作者、分析日期、分析目的等信息。5)在每个数据(或每条序列)的名字之前应该有一个“#”,名字的下一行是具体的序列.在同一个数据文件里,不能出现数据名相同的序列。在数据名及具体序列中,空格和TAB是被忽略的.6)在同一数据文件内,所有序列的长度应该保持一致,否则,程序不能执行。 7)对于DNA或RNA序列,Mega软件能够识别A、T、C、G、U五种字符,缺失字符可以用“?”表示,比对时的空缺位点可以用“—”表示。下边是一个数据文件示例:

Fig

其次,如果输入数据是遗传距离矩阵,则要求如下:1)前4点要求同对上述DNA序列的要求相同;2)在每个距离矩阵的名字之前应该有一个“#”,每个名字占一行;先列

出距离矩阵的名字,然后再给出距离矩阵;3)距离矩阵有两种形式,下三角和上三角。下边是一个数据文件示例:

Fig

下图是距离矩阵的示意图,左边是下三角矩阵,右边是上三角矩阵。

Fig

再次,如果数据是测序图谱的形式,直接导入即可。下图是测序图谱示例:

Fig

MEGA界面及操作

Mega是一款操作十分简便的遗传学分析软件,其界面十分友好,即使初学者也很易上手。

1、数据的录入及编辑

Mega软件能够接受多种数据格式,如FASTA格式、Phylip格式、PAUP数据格式等等。而且Mega软件专门提供了把其他格式的数据转换位Mega数据格式的程序。

首先,打开Mega程序,有如下图所示的操作界面:

Fig

单击工具栏中的“File”按钮,会出现如下图所示的菜单:

Fig

从上图可以看出,下拉菜单有“Open Data”(打开数据)、“Reopen Data”(打开曾经打开的数据,一般会保留新近打开的几个数据)、“Close Data\"(关闭数据)、“Export Data”(导出数据)、“Conver To MEGA Format\"(将数据转化为MEGA格式)、“Text Editor\"(数据文本编辑)、“Printer Setup”(启动打印)、“Exit”(退出MEGA程序)。单击“Open Data”选项,会弹出如下菜单:

Fig

浏览文件,选择要分析的数据打开,单击“打开\"按钮,会弹出如下操作界面:

Fig

此程序操作界面,提供了三种选择数据选择:Nucleotide Sequences(核苷酸序列)、Protein Sequences(蛋白质序列)、Pairwise Distance(遗传距离矩阵)。根据输入数据的类型,选择一种,点击“OK”即可。如果选择“Pairwise Distance”,则操作界面有所不同;如下图所示:

Fig

根据遗传距离矩阵的类型,如果是下三角矩阵,选择“Lower Left Matrix\"即可;如果是上三角矩阵,选择“Upper Right Matrix\"即可。点击“OK”按钮,即可导入数据。如果是核苷酸数据,则读完之后,会弹出如下对话框:

Fig

如上图,如果是编码蛋白质的核苷酸序列,则选择“Yes”按钮;如果是不编码蛋白质的核苷酸序列,则点击“No”按钮。之后,会弹出如下操作窗口:

Fig

此作界面的名称是“Sequence Data Explorer”,在其最上方是工具栏“Data\"、“Display”、“Highlight\"等,然后是一些数据处理方式的快捷按钮,在操作界面的左下方是每个序列的名称。显示序列占了操作界面的绝大部分,与第一个序列相同的核苷酸用“。”表示,发生变异的序列则直接显示.

如果在弹出的对话框中,点击“OK\",即选择输入的数据是编码蛋白质的DNA序列.那么会再弹出如下对话框:

Fig

此操作界面提供了多种生物的遗传密码方式的选择,如Vertebrate Mitochondrial(脊椎动物线粒体)、Invertebrate Mitochondrial(非脊椎动物线粒体)、Yeast Mitochondrial(酵母线粒体)等等。

点击此操作界面的“Add\"按钮,可以添加密码子表格,其编辑界面如下图所示:

Fig

通过此操作界面可以创建、修改密码子表格。点击“OK”按钮可以返回“Select Genetic Code\"操作界面。

点击“Select Genetic Code”操作界面的“Delect”按钮,可以删除一个密码子表。

点击“Select Genetic Code”操作界面的“Edit”按钮,可以对已经存在的密码子表格.其操作界面与“Genetic Code Table”相同。

点击“Select Genetic Code”操作界面的“View”按钮,可以浏览选中的密码子表格。

点击“Select Genetic Code\"操作界面的“Statistics”按钮,可以统计密码子表格的一些信息,如每种密码子的频率、同义位点数、非同义位点数等.

点击点击“Select Genetic Code”操作界面的“OK”按钮,会弹出如上图所示的“Sequence Data Explorer”操作界面。如果点击“Cancel”按钮,也会弹出此操作界面,但是此时会把数据默认为非编码的DNA序列。

单击“Sequence Data Explorer”操作界面工具栏的“Data”按钮,有如下图所示的下拉菜单:

Fig

下拉菜单有六个选项:“Write Data To File”(将数据转到文件中,利用此选项可以把Mega数据格式的数据转化成其它格式)、“Translate/Untranslate”(是否翻译,这个选项只有所分析的DNA序列是编码序列时才被激活)、“Selcet Genetic Code Table”(选择遗传密码表,这个选项只有所分析的DNA序列是编码序列时才被激活)、“Setup/Selcet Genes&Domains”(选择或设置基因或结构域)、“Setup/Select Taxa&Group”(对数据进行分组)、“Quit Data Viewer”(退出此浏览框)。

单击“Write Data To File”选项,会弹出如下对话框:

Fig

Title框显示的内容是数据文件中“TITLE”之后的内容。Description框显示的内容是数据文件中对整体数据描述的内容。

Format选项提供一个下来菜单,通过此下拉菜单可以把数据转化为MEGA格式、Nexus(PAUP4.0)格式,PHYLIP3.0格式、Nexus(PAUP3。0/MacClade)格式。

Writing site numbers 选项也提供一个下拉菜单,通过此下来菜单可以把给每个核苷酸标序号,“None”为不显示序号,“For each site\"为每个位点显示序号,“At the end of line”在每一行行末显示序号。

Missing Data and alignment gaps选项也提供了一个下拉式菜单,这个菜单包括:“Include sites with miss/ambiguous data gaps”(显示缺失位点及模糊位点以及空缺)、“Exclude sites with miss/ambiguous data gaps”(不显示缺失位点及模糊位点以及空缺)、“Exclude sites with miss/ambiguous data only” (仅不显示缺失位点及模糊位点)、“Exclude sites with alignment gaps only”(仅不显示比对是的空缺部分).

如上述操作界面中的选项,点击“OK”按钮,会弹出如下界面:

Fig

此操作界面中的文字可以拷贝到文本文档中。如果在“Squence Data Explorer\" 操作界面的工具栏中选择“Highlight”中的“Varible sites”选项,则单击“Write Data To File”选项,会弹出如下对话框:

Fig

我们会发现与上述“Exporting Sequence Data”操作界面相比,在最下方增加了一个“Selceted sites to Include\"下拉菜单框,此框包含:All sites(所有位点)、“Only highlighted sites”(只显示相互之间有变异的位点)、“Only unhighlighted sites”(只显示相互之间无变异的位点)三个选项。如上图中的操作界面中的选项,点击“OK”按钮,则会弹出如下对话框:

Fig

可以看出,在此操作界面中,仅显示了有变异的位点。这样的数据形式在转

化成“NetWork”遗传分析软件所需的数据格式时很方便。

单击“Sequence Data Explorer” 操作界面的工具栏中“Data”中的“Setup/Selcet Genes&Domains\"选项,会弹出如下对话框:

Fig

通过此操作界面可以检测、确定、选择结构域,为某些位点添加标签等。这个操作界面包括两大部分:“Define/Edit/Select”和“Site Labels”.通过操作界面中“Genes/Domain”的子菜单“Data\"可以设置,起始位点和末位点。通过“Codon Start”选项,可以选择编码的起始位置.在操作界面下端有一排按钮:“Add Gene\"、“Add Domain”、“Delete/Edit”、“Expand\".通过“Add Gene”按钮可以添加或插入一个新的基因,通过“Add Domain”按钮可以添加或插入一个新的结构域,通过“Delete/Edit”按钮可以对数据进行编辑和删除,通过“Expand\"可以展开数据,或仅显示第一水平的数据。

点击“Site Labels\"按钮,上述操作界面变为如下图所示:

Fig

点击上述操作界面中的“Close”按钮,返回“Sequence Data Explorer”操作界面.选择工具栏“Data”下拉菜单中的“Setup/Select Taxa&Groups\"选项,弹出如下图所示操作界面:

Fig

如上图操作界面,点击“New Group”按钮可以创建一个新的组,点击“Delete Group”按钮可以删除一个已经存在的组,在操作界面的中间竖排有五个按钮,同

最上端两个按钮可以把数据移入或移出一个选定的组,点击第三个按钮可以对选定的组进行重新命名,点击“+”按钮可以创建一个新的组,点击“—”按钮可以删除一个已经存在的组。注意,组的名字不能与任何一个样本重名.点击“Close\"按钮,“Sequence Data Explorer”操作界面。点击此操作界面中的“Display\"按钮,会弹出如下操作菜单:

Fig

从上述操作界面图看,下拉菜单共有:“Show Only Selected Sequences”(仅显示选中的序列)、“Use Identical Symbol”(利用同一标记符号)、“Color Cells”(色彩单元)、“Sort Sequences”(序列分类)、“Restore Input Order”(恢复输入序列的顺序)、“Show Sequence Names”(显示序列名字)、“Show Group Names”(显示序列所在的组的名字)和“Change Font”(改变字体)八个选项。

选择“Show Only Selected Sequences\"选项,只有被选中的序列才会在界面中显示,不过软件默认的是所有输入的序列都是被选中的,不过软件使用者是可以修改哪些序列被选中。

选择“Use Identical Symbol”选项,那么与第一个序列相同的核苷酸将用“.”显示,与之相比,发生变异的核苷酸才以“A、T、C、G”的形式显示。

选择“Color Cells”选项,不同的核苷酸将用不同的颜色显示,如下图所示。“Sort Sequences”选项有四个子选项:“By Sequence Name\"(通过序列名字排列)、“By Group Name”(通过组的名字排列)、“By Group&Sequence Name”(通过组和序列的名字排列)、“As per Taxa&Group Organizer”().

选择“Restore Input Order”选项,则序列排列顺序恢复到与输入数据文件中的顺序一样。

选择“Show Sequence Names”选项,则每个序列的名字被显示。选择“Show Group Names”,则每个序列所在的组的名字将被显示。

选择“Change Font\"选项,可以改变序列名字、组名及其序列本身的字体大小及颜色,默认的字体大小是“小五\",默认的字体颜色是黑色,默认的字型是常

规,无下划线、删除线.

Fig

点击“Sequence Data Explorer”操作界面的“Highlight”选项,会有如下图所示的下拉菜单选项:

Fig

由上图可以看出,“Highlight\"的下拉菜单共有七个选项“:Conserved Sites”(C,保守位点)、“Variable sites”(V,变异位点)、“Parsim—Info sites”(P,简约信息位点)、“Singleton sites”(S,单独位点)、“0-fold Degenerate sites”(0,未简并位点)、“2-fold Degenerate sites\"(2,2倍简并位点)、“4— fold Degenerate sites\"(4,4倍简并位点);其中后三个选项,只有在输入的序列是编码序码时才被激活。

选择“Conserved Sites”选项,所有的保守位点,即没有发生变异的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。

选择“Variable sites”选项,所有的变异位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示.

选择“Parsim—Info sites”选项,所有简约变异位点(即变异至少包括两种类型的核苷酸或氨基酸)将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。

选择“Singleton sites\"选项,单突变(变异至少包括两种类型的核苷酸或氨基酸,而且在所有样本中仅发生一次)的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。

选择“0—fold Degenerate sites”选项,那些所有突变都是非同义突变的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活.

选择“2— fold Degenerate sites”选项,那些在所有突变中同义突变占1/3的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。

选择“4— fold Degenerate sites”选项,那些所有突变全部是同义突变的位点,将被突出显示,位点的总数目将在状态栏(操作界面最下端)显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活.

点击“Sequence Data Explorer”操作界面的“Statistics”选项,会有如下图所示的下拉菜单选项:

Fig

从上图可以看出,此下拉菜单总共有六个选项:“Nucleotide Composition”(核苷酸组成)、“Nucleotide Pair Frequence”(核苷酸配对频率)、“Codon Usage”(密码子使用)、“Amino Acid Composition”(氨基酸组成)、“Use All Selected Sites”(利用所有选择的位点)、“Use Only Highlighted Sites”(仅利用突出显示的位点)。

选择“Nucleotide Composition”选项,可以计算得到,每条序列中A、T、C、G及U的百分含量,以及总的核苷酸个数,还可以得到整个数据中A、T、C、G及U的百分含量。如果数据是编码蛋白质的DNA序列,那么还可以得到每种核苷酸在密码子各个位置的比例。

选择“Nucleotide Pair Frequence\"选项,可以计算DNA序列中核苷酸配对的频率.这个选项有两个子菜单“:Directional(16 Pairs)”和“Undirectional(10 Pairs)”。一个是有方向性的,一个是没有的。

选择“Codon Usage”选项,能够统计出每种密码子的使用频率.

选择“Amino Acid Composition”选项,能够统计出每条序列中各种氨基酸的组成百分含量,以及总的氨基酸个数。还可以计算出整个数据中每种氨基酸的组成百分含量。此选项只有在输入数据是氨基酸的条件下才被激活。

选择“Use All Selected Sites”选项,在计算统计时,可以利用所有被选中的位点。

选择“Use Only Highlighted Sites”选项,在计算分析时,仅利用那些被突出显示的位点进行计算。

在菜单栏的下方是一些常用的快捷方式,如下图示:

Fig

上图图标中,所对应的操作从左到右依次是:“Write Data To File\"(将数据转到文件中)、“Setup/Select Taxa&Group”(对数据进行分组)、“Setup/Selcet Genes&Domains”(选择或设置基因或结构域)、“Use Identical Symbol”(利用同一标记符号)、“Color”(进行色彩设置)、“Conserved Sites\"(C,保守位点)、“Variable sites\"(V,变异位点)、“Parsim—Info sites\"(P,简约信息位点)、“Singleton sites\"(S,单独位点)、“0-fold Degenerate sites”(0,未简并位点)、“2—fold Degenerate sites”(2,2倍简并位点)、“4- fold Degenerate sites\"(4,4倍简并位点)、将核苷酸序列翻译为蛋白质序列。

点击“Sequence Data Explorer\"界面的“Data\"下拉菜单中的“Quit Data Viewer”选项,即可关闭此操作界面,返回到Mega操作的主界面。

2、遗传距离的计算

2.1 遗传距离模型的选择

点击Mega操作主界面的“Distances”按钮,会弹出一个下拉菜单。如下图所示:

Fig

从上图易知,此菜单包括如下选项:“Choose Model”(选择模型,即选择计算遗传距离的模型)、“Compute Pairwise”(计算遗传配对差异)、“Compute Overall Mean”(计算包括所有样本在内的平均遗传距离)、“Compute With Group Means”(计算组内平均遗传距离)、“Compute Between Groups Means”(计算组间平均遗传距离)、“Compute Net Between Groups Means\"(计算组间平均净遗传距离)、“Compute Sequence Diversity”(计算序列分歧度)。

“Compute Sequence Diversity”选项包括四个子菜单:“Mean Diversity Within Subpopulations”(亚群体内部平均序列多态性)、“Mean Diversity for Entire Population”(整个人群平均序列多态性)、“Mean Interpopulaional Diversity”(群体内部平均序列多态性)、“Coefficient of Differentiation”(遗传变异系数)。

点击“Choose Model”选项,会弹出如下操作界面:

Fig

从上述操作界面可以看出,通过此对话框可以选择计算遗传距离的模型等。 “Data Type”显示数据的类型:Nucleotide(Coding)(编码蛋白质的DNA序列)、Nucleotide(不编码蛋白质的DNA序列)、Amino Acid(氨基酸序列).

通过“Model”选项可以选择,计算遗传距离的距离模型。点击“Model\"一行末端的按钮会弹出一选择栏。

Fig

如上图所示,对于非编码的核苷酸序列Mega程序提供了八种距离模型:“Number of Difference”(核苷酸差异数)、“P-distance\"(P距离模型)、“Jukes-Cantor”(Jukes和Cantor距离模型)、“Kimura 2—Parameter\"(Kimura双参数模型)、“Tajima-Nei”(Tajima和Nei距离模型)、“Tamura 3—parameter\"(Tamura 三参数模型)、“Tamura-Nei”(Tamura和Nei距离模型)、“LogDet(Tamura kumar)”(对数行列式距离模型).

对于编码的核苷酸序列,其遗传距离模型如下图所示:

Fig

如上图所示,对于编码蛋白质的DNA序列,Mega程序提供了一下几种模型:“Nei-Gojobori Method”,“Modified Nei—Gojobori Methoed”、“Li-Wu-Luo Method\"、“Pamilo—Bianchi—Li Method\"、“Kumar Method”。其中Nei—Gojobori方法和修正的Nei-Gojobori方法都包含三种距离模型:“Number of Differences”、“P-distance\"、“Jukes-Cantor”。对于氨基酸序列,Mega所提供的遗传距离模型如下图所示:

Fig

如上图所示,对于氨基酸序列,Mega程序提供了一下六种遗传距离模型:“Number of Differences”(氨基酸差异数)、“P-distance”(P距离模型)、“Poisson Correction”(泊松校正距离模型)、“Equal Input”(等量输入距离模型)、“PAM Matrix(Dayhoff)”(PAM距离矩阵模型)、“JTT Matrix(Jones—Taylor-Thornton)”(JTT距离矩阵模型)。

在“Analysis Preference”操作界面中,“Pattern Among Lineages\"仅提供了一个选项:“Same(Homogenous)”“,也就是说样本之间是有一定同源性的。“Rates among sites\"提供了两个选项:“Uniform Rates”和“Different(Gamma Distributed)”。“Uniform Rates\"意味着所有序列的所有位点的进化速率是相同的。选择“Different(Gamma Distributed)\",意味着序列位点之间的进化速率是不相同的,可以利用Gamma参数来校正,系统提供了四个数值可供选择:2。0、1。0、0。5、0.25;软件使用者也可以自行决定Gamma参数的大小。设置完毕后,在此界面中点击“OK\"按钮,即可返回Mega操作主界面.

选择主操作界面“Distance”中的“Compute Pairwise”选项,可以计算样本之间的遗传距离的大小,其操作界面如下图所示:

Fig

从上述操作界面易知:

“Data Type”显示数据的类型,图中为“Nucleotide”。

“Analysis”显示计算分分析的类型,图中为“Pairwise Distance Calculation\"(配对差异距离计算).

“Compute\"显示所要运行的对象,又两个选项:“Distance only”(仅计算遗传距离)和“Distance&Std.Err”(计算遗传距离和其标准误).

“Include Sites”显示利用哪些位点来计算,如果数据类型是不编码蛋白质的核苷酸序列,则全部参与计算,如果是编码蛋白质的核苷酸序列,则可以选择哪些位点(如密码子的第2位等)来参与运算。

“Substitution Model”是替代的模型 ,在下边“Model\"中可以进行选择。 “Substitutions to Inclued”选择哪些替代类型(如下图所示)被用于运算,d选项将转换和颠换全部包括在内,s选项仅包括转换,v选项仅包括颠换,R为转换和颠换的比值,L为所有有效的普通位点的个数。

Fig

“Pattern among Lineages”和“Rates among sites”上文已有介绍,不再详述. 点击“Compute”按钮,即可开始计算。其显示运算结果的界面如下图所示:

Fig

上图是计算出的各个样本之间的遗传距离的矩阵。在最下端的状态栏,显示的是所利用的遗传距离模型,如图中所示:Nucleotide:Kimura 2—parameter。

“File”按钮共有四个下拉菜单:“Show Input Data Title”(显示输入数据的标题)、“Show Analysis Description”(显示分析信息的描述)、“Export/Print Distance”(输出或打印距离矩阵)、“Quit viewer”(退出此操作界面)。

“Display\"按钮共有四个下拉菜单:“Show Pair Name\"(显示配对序列的名字)、“Sort Sequence\"(用何种方式对序列进行排序)、“Show Names”(显示序列的名字)、“Change Font”(改变字体).“Sort Sequence”有两个选项:“Original”(按原先输入的顺序)和“By Name”(通过序列的名字)。

点击“Average”按钮可以计算平均的遗传距离,此按钮提供了四个下拉菜单:“Overall”(所有样本之间的平均遗传距离)、“Within Groups”(组内平均遗传距离)、“Between Groups\"(组间平均遗传距离)、“Net Between Groups”(组间平均净遗传距离)。

在上述按钮下方还有六个按钮,如下图所示.

点击第一个按钮可以使数据以下三角矩阵的方式显示;点击第二个按钮可以使数据以上三角矩阵的方式显示;选中第三个按钮可以显示配对的序列的名字,点击第四个按钮,可以减少数据小数点后的位数;点击第五个按钮,可以增加数据小数点后的位数;拖动第六个按钮中的小竖条可以改变数据显示的宽度。

点击“File”下拉菜单中的“Export/Print Distance\"选项,会弹出如下图所示的对话框:

Fig

“Output Format\"选项可以确定输出数据的格式:“Publication”(一般格式)和“Mega”(Mega格式,把此数据保存可直接由Mega程序打开,进行构建系统发育书等遗传分析)。

Decimal Places(小数位的大小),“Max Entries per line”(每一行最多能显示的数据的个数)。

通过“Matrix”可以选择输出数据矩阵的方式:“Lower-left\"(下三角矩阵)和“Upper—right”(上三角矩阵)。

点击“Print/Save Matrix\"按钮,可以输出数,会弹出如下图所示的操作界面:

Fig

在上图中的数据和文字可以直接进行拷贝,粘贴到文本文档或Microsoft Word文档中.在此操作界面中,首先显示数据文件的一些信息,如数据文件的标题、总的样本个数、核苷酸替代的距离模型等。然后是每个序列的名字,之后是

序列之间的距离矩阵。将此距离矩阵保存,可以用Mega或其他系统发育分析软件来做系统树。

点击Mega软件操作主界面的“Distances”下拉菜单中的“Compute Overall Mean”选项,可以计算所有序列的所有位点的平均遗传距离,其操作方法和界面同“Compute Pairwise”相仿.其运算结果如下图所示:

Fig

点击Mega软件操作主界面的“Distances”下拉菜单中的“Compute Within Group Means\"选项,可以计算每个组组内的平均遗传距离,其操作方法和界面同“Compute Pairwise\"相仿。其运算结果如下图所示:

Fig

点击Mega软件操作主界面的“Distances\"下拉菜单中的“Compute between Group Means”选项,可以计算分组之间的平均遗传距离,其操作方法和界面同“Compute Pairwise”相仿。其运算结果如下图所示:

Fig

点击Mega软件操作主界面的“Distances”下拉菜单中的“Compute net between Group Means”选项,可以计算分组之间的平均遗传距离,其操作方法和界面同“Compute Pairwise”相仿。其运算结果如下图所示:

Fig

点击Mega软件操作主界面的“Distances”下拉菜单中的“Compute Sequence Diversity”选项中的“Mean Diversity Within Subpopulations”,可以计算亚组之间的平均遗传距离,其操作方法和界面同“Compute Pairwise\"相仿。其运算结果如下图所示:

Fig

点击Mega软件操作主界面的“Distances”下拉菜单中的“Compute Sequence Diversity”选项中的“Mean Diversity for Entire Population”,可以计算整个群体的平均遗传距离,其操作方法和界面同“Compute Pairwise”相仿。其运算结果如下图所示:

Fig

点击Mega软件操作主界面的“Distances”下拉菜单中的“Compute Sequence Diversity”选项中的“Mean InterPopulation Diversity”,可以计算群体内部的平均遗传距离,其操作方法和界面同“Compute Pairwise”相仿.其运算结果如下图所示:

Fig

点击Mega软件操作主界面的“Distances”下拉菜单中的“Compute Sequence Diversity”选项中的“Coffient of Differentiation\可以计算群体的变异系数,其操作方法和界面同“Compute Pairwise”相仿。其运算结果如下图所示:

Fig

3、系统发育树的构建及检验

Mega程序构建系统发育树的功能很强大。它提供了四种构建系统发育树,还包括一些检验程序。这四种构建分子系统树的方法为:Neighbor-Joining(NJ,邻接法)、Minimum Evolution(ME,最小进化法)、Maximum Parsimony(MP,最大简约法)、Unweighted Pair Group Method With Arithmetic Mean(UPGMA,算术平均的不加权对群法).其中,NJ法和UPGMA法都属于距离法.

其操作界面如下图所示:

Fig

3。1 系统发育树的构建

3。1 。1构建邻接树

邻接法是距离法构建系统发育的常用方法,此方法基于最小进化原理,而不使用优化标准。邻接法中一个重要概念就是“近邻\"。在谱系树上,如果两个分支之间只通过一个内部节点相连,那么这两个分支就被称为“近邻”。完全解析出的进化树是通过对完全没有解析出的“星型\"进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上,是最孤立的)的序列对中插入树枝,而保留进化树的终端.于是,最接近的序列对被巩固了,而“星型\"进化树被改善了,这个过程将不断重复。这种方法并不检验所有可能的拓扑结构,因此相对而言运算速度很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更少。

具体操作:输入数据,点击Mega操作主界面“Phylogeny”中的“Constrcuct Phylogeny\"选项中的“Neighbor-Joining(NJ)”,会弹出如下操作界面。

Fig

此操作界面可以显示数据的类型、计算分析的类型、构树的方法等等。 点击“Phylogeny Test and options”后边的按钮,可以设置检验的类型: None(不进行检验)、“Bootstrap\"(自展法检验)、“Interior Branch Test\"(内部分支检验)。选择后两种检验方法,可以设置自展的次数等等。设置完毕后,点击下边有对号标记的按钮即可返回原操作界面。其操作界面如下图所示:

Fig

点击“Model”按钮,可以选择计算遗传距离所用的距离模型。其它按钮的解释和使用前边已有介绍,这里不作赘述.设置完毕后,点击“Compute\"按钮,即可开始计算分析。结果界面如下图所示:

Fig

上图即是利用邻接法构建的系统发育树。

点击此操作界面中的“File”按钮,会弹出一下拉菜单(如下图所示),此菜单包括八个选项:“Save Tree Session”(保存树文件,快捷方式为Ctrl+S)、“Export Current Tree”(导出当前的谱系树)、“Export All Trees\"(导出所有的谱系树)、“Show Information”(显示有关谱系树的一些信息)、“Print”(打印)、“Print in a sheet”(在一张纸中打印)、“Printer setup\"(启动打印机)、“Exit Tree Explorer”(退出此操作界面)。

Fig

点击“Save Tree Session”选项,可以将树文件保存,有关系统树的所有信息都被存储.

点击“Export Current Tree”选项,可以将当前谱系导出,格式为Newick

Standard Files,简写为NWK。点击“Export All Trees”选项,可以导出所有的谱系树。

点击“Show Information”选项,可以显示有关系统树的一些信息,其操作窗口如下图所示:

Fig

此操作界面会给出数据的类型、构树的方法、检验的方式及自展的次数、所采用的距离模型等信息。

点击“Information”操作界面中的“Tree”按钮,界面会显示系统树的类型(有根树还是无根树)、系统树分支的总长度等信息。

点击“Information”操作界面中的“Tree”按钮,界面会显示系统树的分支类型.

点击“Mega 3 Tree Explorer”操作界面中的“Image\"按钮,会弹出一下拉菜单,此菜单包括三个选项:“Copy to Clipboard\"(拷贝到剪切贴板)、“Save as Enhanced Metafile(EMF)”(以增强的图元文件形式保存)、“Load Taxon Images from a Folder”(从一个文件中载入分类图形)。

Fig

点击“Copy to Clipboard”选项,可以把当前系统树的形状拷贝到剪切贴板中,可以粘贴到Microsoft Word文章中,也可以粘贴到图形编辑软件中等。

点击“Save as Enhanced Metafile(EMF)”选项,可以将系统树以增强的图元文件形式保存,EMF是图形格式的一种.

点击“Load Taxon Images from a Folder”选项,可以从已经存在的文件中载入

分类图形(系统树)。

点击“Mega 3 Tree Explorer”操作界面中的“Subtree”按钮,会弹出一下拉菜单,此菜单包括九个选项,通过这九个选项可以对已构建的系统发育树进行修改。这些选项如下图所示:

Fig

点击“Root”选项,可以选定一个分支作为系统树的根部。如果是有根树,其树根一般是一个外类群,是系统树中其它所有分支的姐妹群体.如果是无根树,则其树根一般是遗传距离最长的两个分支的中部。

点击“Flip”选项,可以选定一个内部分支,对本分支两旁的世系分支进行翻转。

点击“Swap\"选项,可以选定一个内部分支,对本分支两旁的亚系统树进行翻转,如果系统统树仅有一个群体,那么此选项与“Flip\"选项相同。

点击“Compress/Expand”选项,可以选定一个内部分支,把分支后边包括的节点或亚系统树压缩为一个线条粗度比较大的一个分支,其粗细程度与包括的类群的多少成正比。可以给这个新生成的分支起名字。如果选择此选项后,点击一个已经被压缩的分支,则此分支会恢复到原来的形状,不过后边会有一个方括号附上压缩分支的名字。如下图所示,一个是压缩的分支,一个是压缩后又伸展开的分支 :

Fig

点击“Draw Options”选项,可以对亚系统树的显示方式进行调节.可以更改压缩分支的名字,线条的粗度、线条的颜色等.其操作界面如下图所示:

Fig

如上图所示的操作界面,在Name/Caption选项中,可以编辑选定分支或节点的名字,点击“Font”按钮可以修改名字的字体、大小、颜色等.通过Node/Subtree Marker选项可以为分支或节点选择一个图形来标记,通过“Color”选项可以设定标记图形的颜色。通过“Branch Line”选项,可以设定分支线条的颜色、粗细,显示风格等等.

点击上述操作界面的“Dispaly”按钮,操作界面变为如下图所示:

Fig

通过此“Subtree Draw Options”操作界面,可以选择在系统树显示界面中哪些选项显示哪些选项不显示。如分支的名字、节点和分类的标记等等。

选中“Subtree\"下拉菜单中的“Use Subtree Draw Options”选项,可以显示“Subtree Draw Options”选项中所设定的内容,否则不显示。

选中“Subtree”下拉菜单中的“Use Group Draw Options\"选项,可以显示“Group Draw Options”选项中所设定的内容,否则不显示。

点击“Subtree”下拉菜单中的“Divergence Time”选项,可以对一个选定的节点设置分歧时间。其弹出的操作界面如下图所示:

Fig

如上述操作界面,选定一个节点,在“Unit Label”后边的矩形框中填入单元标记,在“Divergence Time” 后边的矩形框中填入分歧时间,“Time Label” 后边的矩形框中填入分歧时间标签的名字。点击“OK”按钮,“Evolutionary Rate”会自动计算出来,然后返回“Mega 3 Tree Explorer\"主操作界面。在系统树下边会增加一时间轴,如下图所示:

Fig

点击“Subtree”下拉菜单中的“Display in a window”选项,可以选定系统树的一部分,在新窗口中放大显示.

点击“Mega 3 Tree Explorer”操作界面中的“View”按钮会弹出一个包括七个主选项的下拉菜单,通过此菜单可以对系统树的风格、样式、显示方式等进行设定,也可以设定系统树分支线条的粗细、颜色、系统树分支的名字、标记等。也可以对系统树进行一定程度上的修改。其下拉菜单的主选项,如下图所示:

Fig

点击上述操作菜单中的“Topology only”选项,可以显示分支之间的亲缘关系的远近,而不涉及各个分支的长度。系统树的形式如下图所示:

Fig

点击“View”菜单中的“Root On Midpoint”选项,可以将系统树的树根确定到系统树中遗传距离最远的两个类群的路径的中间.

点击“View”菜单中的“Arrange Taxa”选项,会弹出两个子菜单:“For Blanced Shape”和“By Input Order\"。选择“For Blanced Shape”选项,系统树以一种看似平衡的模式显示,选择“By Input Order”选项,系统树类群尽量按照输入数据中的顺序显示.

点击“Viwe”菜单中的“Tree/Branch Stytle”选项,会弹出三个子菜单:“Traditional\"(传统的)、“Radation”(辐射状的)、“Circle\"(圆形的)。“Traditional\"选项又有三个子菜单:“Rectangular”(矩形的)、“Straight\"(直线的)、“Curved”(曲线的)。

下边是这几种系统树显示方式的示例: 传统的矩形系统树:

Fig

传统的直线形系统树:

Fig

传统的曲线形系统树:

Fig

辐射形的系统树:

圆形的系统树(摘自实验室已发表论文):

0.000 0.005 0.010

Fig

(图中古代察吾呼居民序列用(●)表示,在欧洲人群序列用(◆)表示,东亚人群序列用(▲)表示)

点击“View”菜单中的“Show/Hide”选项,可以显示或隐藏某些选项。这些选项包括:“Taxon Label”(类群标签)、“Taxon Marker”(类群标记)、“Statistics/Frequency”(统计参数、频率,如每个分支的自展值等)、“Branch Lengths”(分支长度)、“Scale Bar\"(比例尺度条).

点击“View\"菜单中的“Fonts”选项,弹出三个子菜单:“Taxon Name”(类群名字)、“Branch Information”(分支相关信息)、“Scale Bar\" (比例尺度条)。通过此选可以修改这些信息的字体的大小、颜色、风格、类别等。

点击“View”菜单中的“Options”选项,可以修改和设定系统树显示的一些选项,其操作界面如下图所示:

Fig

对此操作界面,点击“Tree\"按钮会显示如上图的操作界面,分别点击“Rectangular\"、“Circle”、“Radiation Tree”会显示不同的信息。此操作界面会显示系统树的分支长度、聚类起始类群、树的宽度,类群的分离等信息。

点击上述操作界面上端的“Branch”按钮,操作界面变为如下图所示:

Fig

通过上述操作界面可以设置,系统树分支线条的粗细.可以选择是否显示“Statistics/Frequency”(统计参数、频率,如每个分支的自展值等),以及这些数值在系统树上的位置(如是置于系统树分支的下边还是上边等),以及距离节点的位置等,还可以设定如果这些统计参数小于某一值时不予显示(通过“Hide Values lower than”后边的小方框设定)。还可以选择是否显示“Branch Length”(分支长度),以及这些数值在系统树上的位置(如是置于系统树分支的下边还是上边等),以及精确到小数点后多少位,还可以设定如果这些值小于某一值时不予显示(通过“Hide if shorter than”后边的方框设定)。

点击上述操作界面上端的“Labels”按钮,操作界面变为如下图所示:

Fig

通过此操作界面可以设定是否显示各个类群的名字,以及设定这些名字字体的大小、风格、颜色等。还可以设定是否显示各个类群的标记,并可以为这些类群选择标记等,Mega大约提供了十种图形供我们选择,还可以通过“Color”旁边的小矩形框为这些标记选定颜色.

点击上述操作界面上端的“Scale”按钮,操作界面变为如下图所示:

Fig

通过此操作界面可以选择,“Scale Bar”(比例尺度条)分支线条的粗细,及其名字字体的大小、风格、颜色等。还

通过“Show Distance Scale\"选项,可以选择是否显示距离比例尺度,以及设定此尺度的名字,最大间隔与最小间隔等.

通过“Show Time Scale”选项,可以选择是否显示分歧时间比例尺度,以及设定此尺度的名字,最大间隔与最小间隔等。

如下图是设定之后的示例:

点击上述操作界面最上端的“Cutoff”按钮,可以设定压缩树和一致性系统树的取舍点的值的大小。

点击“Mega 3 Tree Explorer”操作界面的“Compute”按钮会弹出一包括四个选择的下拉菜单.如下图所示:

Fig

点击上述菜单中的“Condense Tree”选项,可以计算压缩系统树,其意义在于,当系统树的内部分支的长度达不到统计学所学的值时,可以不考虑分支的长度,通过此命令做出系统树的拓扑结构.

点击上述菜单中的“Linearized Tree”选项,可以构建线性的系统树,即具有分支分歧时间尺度的拓扑结构.

点击上述菜单中的“Consensus Tree”选项,可以构建一致性系统树,此选项主要针对于MP(最大简约法)构建的系统树。因为利用最大简约法构建系统树时,很多时候会得到许多同样简约的系统,这时候要综合所有的系统树,用一致性指数去筛选合理的拓扑结构。

点击上述菜单中的“Calibrate MolClock”选项,可以进行分子钟校正,其操作界面如下图所示:

Fig

在上述操作界面的“Evolutionary Rate”后的小矩形方框中,填入新的进化速率即可。

3.1 .2最小进化法构建系统发育树

最小进化方法(ME,Minimum Evolution)首先使用与Fitch—Margoliash法相同的方式计算出路径长度,然后根据路径长度优化出最短的进化树;也就是说,它要求将观察到的距离相对于基于进化树的距离的偏差的平方最小化。ME方法并不使用所有可能的双重序列距离和所有可能的相关的进化树路径长度,而是先根据到外层节点的距离固定进化树内部节点的位置,然后根据这些观察点之间的最小计算误差,对内部的树枝长度进行优化。

最小进化法的理论基础是,当使用无偏的进化距离估计时,无论序列数目为多少,真实拓扑结构的预期值将会达到最小。这是一个很好的统计学特性,但是具有最小预期值的拓扑结构并不一定是真实拓扑结构的无偏估计。

当系统树分支比较少的时候,ME树和NJ树通常很相似甚至相同;因此,当序列比较多时,NJ树可以作为起始树.

导入数据,点击Mega操作主界面“Phylogeny”中的“Constrcuct Phylogeny”选项中的“Minimum Evolution(ME)”,即可构建系统发育树,其弹出的操作界面如下图所示:

Fig

此操作界面与构建NJ树的界面很像,首先显示了计算分析操作的一些基本信息包括数据的类型、遗传距离模型的选取等。不同的是,多了一个“Search Options\"选项,点击此选项的按钮可以激活“ME Tree Options\"操作界面,通过此操作界面可以设定构建最小进化系统树的一些计算分析参数。点击此操作界面最上端的“Test of Phylogeny”按钮,可以进行系统树检验参数的设置,与构建NJ树一样,本操作界面也提供了两种检验方法:自展法和内部分支检验。这两种方法都基于自展重抽样理论,通过此界面可以设置自展的次数等.

“ME Tree Options”的操作界面如下图所示:

Fig

通过上述操作界面,可以设置保留的系统树的最大数目(在“Maximum Number of Trees To Retain”后边的小矩形框中设置),可以设置CNI(Close—Neighbor-Interchange)法进行系统树搜索的水平,“Obtain by Neighbor-Joining Method”提示此系统树的构建在一定程度上借助NJ构树方法。

因为对于任何构树方法而言,要搜寻所有可能的拓扑结构都是相当耗时的,Mega程序所提供的最小进化法,通过先由NJ法提供一个暂时的拓扑结构,然后依赖拓扑距离来检验那些拓扑结构与此临时的系统树的差异而节省时间。经过多次重复比较之后,最有的系统树就会被搜寻到。这就是Close-Neighbor-Interchange(相近邻接交换法)存在的意义.

设置完毕后,点击带对号形状的按钮,返回到原操作界面,点击“Compute”即可开始构建系统树。

3.1 .3最大简约法构建系统发育树

最大节约方法(MP,Maximum Parsimony)源于形态性状研究,是一种优化标准.这个标准遵循“奥卡姆剃刀原则(Occam's razor)”:对数据最好的解释也是最简单的,因此所需要的特别假定也最少。在实际应用中,MP进化树是最短的,也是变化最少的进化树;根据定义,这个进化树的平行变化最少,或者说是同形性最低。

最大简约法应用于序列数据构建包括以下几个步骤:⑴确定所有的信息位点,⑵对所有可能的树型,计算每个信息位点上的发生核苷酸替代的最低次数,并对所有信息位点的最低替代数目求和,⑶选择核苷酸替代次数总和最小的树作为最简约谱系树。

为了能够包容取代偏好,MP一般需要加权;比如,颠换的变换相对于转换被加权。进行加权的最简单的方法就是建立一个加权步骤方阵,在这个方阵里,权重用速率的倒数,这个速率是可以由ML方法评估得到的。步骤方阵加权可能会极大地减慢MP的计算速度。

如果比对内部的位点确实存在这速率差异,那么MP方法就会执行得很不好。对于这个问题,还没有什么很好的解决方法。有一个方法,就是对数据集进行修改,使得最终分析的数据集中只包括那些内部差异性很小的位点,这些位点可以由似然分析方法判断得到的.更常见的情况是,MP分析只简单地屏蔽掉那些高度同形的可疑位点(比如说,某些序列比对中的第三个编码位点)。另外一个方法是根据引导树中所能观察到的位点变化倾向,对位点进行循环加权。

模拟研究已经表明,如果从世系分歧开始的序列进化的数量远大于世系分离的分歧数量(比如,一个进化树中,终端的树枝很长,而内部节间的树枝很短),MP的效果比较差.这种情况会造成“长树枝效应”;长树枝可能会被人工连接,因为累积的非同源的相似性的数量超过了因为真实的相关性而保留的同源相似性的数量。在这种情况下,特征符加权会改善MP的执行效果。

MP方法的理论依据是建立在一个哲学理念之上。理论上说,如果每个核苷酸位点没有回复突变或平行突变,而且被检验的核苷酸数(n)非常大,则MP方法能够获得正确的(真实)系统树。然而,实际上核苷酸序列通常会受回复突变或平行突变的影响,n也非常小.此外,如果核苷酸替代速率在进化谱系中变化很大的话,即使所研究的序列无限长,MP构树方法所产生的拓扑结构也会出现错误。

MP构树方法的优点在于:它不需要如距离法或似然法在处理核苷酸或氨基酸替代时所必需的假设。由于现行的诸多数学模型都是对核苷酸变异实际情况的粗略估计,因此,当序列分歧度比较低的时候,无需模型的MP法可以获得比其他方法更可靠的系统树。计算机模拟表明:当⑴序列分歧度比较低(d≤0。1),⑵核苷酸替代速率相对稳定,⑶序列长度比较大的情况下,MP法比其他方法更能获得可靠的拓扑结构。

导入数据,点击Mega操作主界面“Phylogeny”中的“Constrcuct Phylogeny”选项中的“Maximum Parsimony(MP)\",即可构建系统发育树,其弹出的操作界面如下图所示:

Fig

此操作界面与构建NJ树的界面很像,首先显示了计算分析操作的一些基本信息包括数据的类型、构树方法的检验等.不同的是,多了一个“Search Options”选项,点击此选项的按钮可以激活“MP Tree Serach Options”操作界面,通过此操作界面可以设定用最大简约法构建系统树的一些计算分析参数。“Test of Phylogeny\"的操作界面同其它方法相似,只是Mega程序没有提供针对此种构树方法的“Interior Branch Test”(内部分支检验)。

“MP Tree Serach Options”操作界面如下图所示:

Fig

此操作界面提供了三种系统树搜索的方法; “Max-Mini Branch-&—bound”(分支界限式搜索法):此方法从一个仅有有3个分类群的初始核心树(无根树)开始搜索MP树。剩余分类群以某种顺序逐一加入核心树,新树的长度在每个分类群加入时分别予以计算.如果核心树的一个特殊分支的分类群加入使树长超过预定树长的上限,那么这个拓扑结构及其后续拓扑结构以后不予考虑。当预定树长很接近真实MP树的树长时,许多树不必被检验,因此这个算法很节约时间.

“Min—Mini Heuristic Search”(启发式搜索法):Mega程序所提供的这个算法,在某种程度上跟分支界限式搜索法很像,这种方法也需要先建立一个临时树,然后逐步加入新的分支。在这个算法中,很多不可能具有短分支长度的树被删除掉,因此这个算法加速了检索到最优树的速度。但是,与分支界限式搜索法相比,此方法不一定能得到真实的最简约树。在此程序中,软件使用者可以控制搜索的范围,Mega软件使用户可以确定搜索上限的因子。在“Min-Mini Heuristic with Search Fator of”后边的小矩形框中,可以填入要确定的因子大小。

“Close—Neighbor—InterChange(CNI)”临近互换算法,这个算法与ME算法中的很相似。对于任何构树方法而言,要搜寻所有可能的拓扑结构都是相当耗时的,由于计算能力的,现在一般只允许对很小一部分的可能的进化树进行搜索,具体的数目主要依赖于分类群的数量、优化标准.Mega程序所提供的临近互换算法,先由随机添加的一些序列构建一个暂时的拓扑结构,然后通过分支交换的方法进行搜索,从而寻得最简约的系统树。对于启发式搜索的因子数,使用者可以自己控制,在“Min-Mini Heuristic with Search Fator of”后边的小矩形框中,填入需要的值即可。对于随机添加的树的重复次数,使用者也可以自己掌握,在“Random Addition Trees” 后边的小矩形框中,填入需要的值即可。

设置搜索算法后,点击带对号形状的按钮,返回到原操作界面,点击“Compute\"即可开始构建系统树。 3.1 .4 UPGMA法构建系统发育树

不加权配对组算术方法(UPGMA,unweighted pair group method with arithmetic mean),又称算术平均的不加权对群法,也称类平均法,是目前广泛应用的最简单的一种建树方法。它按照配对序列的最大相似性和连接配对的平均值的标准将进化树的树枝连接起来。它不是一种严格的利用进化距离建树的方法。只有当序列分歧是基于一个分子钟或者近似等于原始的序列差异性的时候,才能期望UPGMA会产生一个拥有真实的树枝长度的准确的拓扑结构。但是,在实际问题中很少会遇到这种情况。

UPGMA法既能构建有根树,也能构建无根树;既能够构建拓扑结构,又能计算分支长度。当分歧程度不大时,尽管当基因替代率不稳定且所用基因或核苷酸数目较小时,经常会出现拓扑学误差,但UPGMA仍可用于构建系统树。

导入数据,点击Mega操作主界面“Phylogeny\"中的“Constrcuct Phylogeny\"选项中的“Maximum Parsimony(MP)”,即可构建系统发育树,其弹出的操作界面如下图所示:

Fig

此操作界面与其他构建系统树的方法的界面很像,首先显示了计算分析操作的一些基本信息包括数据的类型、计算分析的类型、核苷酸替代的类型、构树方法的检验等。不同的是,在“Test of Phylogeny”界面中没有提供“Interior Branch Test”(内部分支检验)这种检验方法.

点击“Compute”按钮,即可开始构建系统树.

3。2 带自展检验的系统发育树的构建

Mega程序提供了四种带自展检验的构建系统发育树的方法(如下图示):Neighbor-Joining(NJ,邻接法)、Minimum Evolution(ME,最小进化法)、Maximum Parsimony(MP,最大简约法)、Unweighted Pair Group Method With Arithmetic Mean(UPGMA,算术平均的不加权对群法)。其操作与上述普通构建系统树的方法一样,不同的是,程序在构建系统树时默认添加了自展法进行检验。

Fig

3。3 带内部分支检验的系统发育树的构建

Mega程序提供了两种带自展检验的构建系统发育树的方法(如下图示):Neighbor-Joining(NJ,邻接法)、Minimum Evolution(ME,最小进化法)。其操作与上述普通构建系统树的方法一样,不同的是,程序在构建系统树时默认添加了内部分支检验法进行检验。

Fig

3。4 相对进化速率检验

点击Mega主操作界面“Phylogeny”按钮的下拉菜单“Relative RatesTest\"(相对速率检验)的子菜单“Tajima`s test\可以选择一个外类群,对两个序列或两组序列的进化速率的恒定性进行检验。点击“Tajima`s Test”后,弹出如下图所示的对话框:

Fig

如上述操作界面,A和B后边矩形框中是要检验的序列或序列组,Out.后面的矩形框中是外类群。同此操作界面还可以选择,哪些类型的变异可以用于计算,可以选择“All”(所有的变异位点都参与计算),也可以选择“Transitions(s) only”(仅发生转换的位点参与计算),也可以选择“Transversions(v) only”(仅发生颠换的位点参与计算),也可以选择“s and v separately\"(发生转换和颠换的位点分开计算)。如果符合分子钟,则有E(nijk) = E(njik)。点击“OK”按钮,即可开始分析计算。

3。5 其他操作

点击Mega主操作界面“Phylogeny”按钮的下拉菜单中的“Display Saved Tree Session”选项,可以导入一个已经存在的树文件。

点击Mega主操作界面“Phylogeny”按钮的下拉菜单中的“Display Newick Trees from File”选项,可以导入Newick格式的系统树。

4、替代模式同质性检验

点击Mega主操作界面的“Pattern”按钮会弹出一个包括三个选项的下拉菜单:“Compute Composition Distance”(计算成分距离)、“Compute Pattern Disparity Index”(计算模式不一致性指数)、“Test Substitution Pattern Homegeneity”(检验替代模式同质性)。此下拉菜单的操作界面如下图所示:

Fig

在此操作界面中,无论点击“Pattern\"下拉菜单的哪一个,其弹出的操作界面都是一样的,如下图所示:

Fig

此操作界面中,“Data Type\"显示数据的类型,“Analysis\"显示分析的类型,“Calculate”显示是进行的何种运算。“Gaps/Missing Data”显示缺失和比对空缺位点在运算时是否被删除。

点击“Calculate”一行末端的按钮可以激活“Disaparity Index Test”界面,其操作界面如下图所示:

Fig

如上图操作界面共有三个选项。“Composion Distance”(成分距离的运算),此选项计算核苷酸(氨基酸)序列之间的组成差异,其数值是核苷酸(氨基酸)序列差异平方和的一半。“Disparity Index(ID)”(不一致性指数的计算),此选项计算给定配对序列间观测到的替代模式的差异,它通过比较配对序列(核苷酸序列或氨基酸序列)间的核苷酸或氨基酸出现的频率和计算配对序列间的差异而得到。“Test Pattern Homogeneity(ID-Test)”(替代模式同质性检验),可以在“Monte-Carlo Test”选项中设置计算重复的次数.

点击上述界面中,带对号形状的按钮,即返回原先操作界面,点击“Compute\"按钮,即可开始运算.“Test Pattern Homogeneity(ID—Test)\"运算结果界面如下图所示:

Fig

5、中性检验

Mega程序提供了三种模型来检测中性突变,两种针对于编码蛋白质的DNA序列,一种用于适用于所有的DNA序列。点击Mega主操作界面的“Selection”按钮会弹出一个包括三个选项的下拉菜单:“Codon—Based Z-Test(Large Sample)”(基于密码子的Z检验,适用于大样本的编码蛋白质的DNA序列)、“Codon—Based Fisher`s Exact Test\"(基于密码子的Fisher检验正检验,适用于编码蛋白质的DNA序列)、“Tajima`s Test of Neutrality”(Tajima中性检验).

Fig

点击“Selcetion”下拉菜单中的“Codon-Based Z-Test(Large Sample)”选项,弹出如下操作界面:

Fig

如上图操作界面:

“Data Type”显示数据的类型-“Nucleotide(Coding)”。

“Anaysis”显示所要进行的分析的名字“Z—test of Selection\"。 “Hypothesis to test”显示要检测的假设,程序提供了三个选项:“Neutrality

(dN=/=dS)”(中性突变)、“Positive Selection(dN〉dS)”(正选择)、“Purifying Selection(dN〈dS)”(净化选择).

“Analysis Scope”(分析范围),可以选择“In Squence Pairs”(在序列对中)或“Overall Average”(全部序列的平均值).

“Model”(遗传距离模型),程序提供了五大类距离模型可供选择。 点击“Compute\"按钮,即可开始运算。其运算结构如下图所示:

Fig

点击“Selcetion\"下拉菜单中的“Codon-Based Fisher`s Exact Test”选项,也会弹出一操作界面,此操作界面与“Codon—Based Z—Test(Large Sample)\"的很像。但是“Codon-Based Fisher`s Exact Test”选项,只能检验正选择,不能计算标准误,不能选择分析的范围,可供选择的距离模型也就两种。

点击“Selcetion”下拉菜单中的“Tajima`s Test of Neutrality”选项,如果所分析数据是编码蛋白质的序列,则会弹出如下操作界面:

Fig

如上图所示操作界面: “Data to Analyze”(所要分析的数据类型):“Nucleotide Sequence\"(核苷酸序列)和“Translated Amion Acid Squences\"(把核苷酸序列转换为氨基酸序列再

进行分析)。

“Codon Positions/Sites Included”(选择要分析的数据包括密码子的哪几位,以及是否包括非编码区)。

点击“OK”按钮,即可开始计算分析,运算结果如下图所示:

Fig

如上述操作界面,D值偏离0越远,说明所分析的样本约偏离中性突变。

6、序列比对

序列比对是Mega程序很有特色的一个功能,有点像ClustalX,不过编辑序列比ClustalX方便,而且还能直接读取测序图谱。点击Mega操作主界面中的“Alignment”按钮,会弹出一个包括六个选项的菜单,如下图所示:

Fig

如上图所示的操作界面:

点击“Aligment Explorer/CLUSTAL\"选项,可以进行序列比对操作,弹出如下操作界面:

Fig

此操作界面有三个选项:“Creat a new alignment”(建立一个新的比对分析)、“Open a saved alignment session”(打开已经存在的序列比对文件)、“Retrieve Squence from a file”(从文件中导入序列进行比对,支持的文件格式很多).Retrieve Squence from a file”选项支持的文件格式有:Phylip格式(*。phylip,*。phylip2),PAUP/MacClade格式(*.nexus,*.nex),Clustal格式(*.aln),GCG格式(*。gcg),PIR格式(*.PIR),NBRF格式(*.nbrf,*.nbr),MSF格式(*。msf),IG格式(*.ig)等。

点击“Creat a new alignment”选项,会弹出如下对话框:

Fig

如上图对话框,如果要比对DNA序列,点击“Yes”按钮即可;如果要比对蛋白质序列,则要点击“No”按钮。

点击“Yes”按钮,输入序列,操作界面如下:

Fig

如上操作界面,可以对比对序列进行编辑,可以插入或删除序列或者单个的核苷酸或氨基酸,也可突出显示选定的核苷酸或氨基酸,可以进行复制、剪切、粘贴等操作,还可以删除或引入空缺位点,还可以把DNA序列翻译为氨基酸序列等等。而且能够改变显示字体的颜色、大小、风格等。还可以寻找、搜索特定的核苷酸或氨基酸序列或者结构域等。

此操作界面还能直击导入测序图谱进行编辑,在功能和操作上与“Chromas\"软件很像。其操作界面如下图所示:

Fig

通过上述操作界面,可以完成如下功能: 1)查找序列片断或单个核苷酸. 2)显示核苷酸互补链。 3)对序列进行编辑。

4)导出序列,直接添加到Mega序列比对程序中.

5)通过操作界面右上方的横条上的按钮可以调节测序峰的宽度,通过竖条上的按钮可以调节测序峰的高度。

6)可调节字体的颜色、大小,样式等,可以调节测序峰的像素数。 7)可以直接打印测序图谱。

点击Mega操作主界面“Alignment”按钮的“Open a saved alignment session”选项,可以打开已经存在的序列比对文件

点击Mega操作主界面“Alignment\"按钮的“Do Blast Search”选项,可以直接连到NCBI网站进行Blast操作,Mega程序内置了一个浏览器,可以直接进行此项操作.其操作界面如下图所示:

Fig

此界面与Windows提供的IE浏览器的界面很相似.

点击Mega操作主界面“Alignment\"按钮的“Query databanks”选项和“Show Web Brower”选项,也可以激活上述界面。

点击Mega操作主界面“Alignment”按钮的“View Edit Sequence Files”选项,可以直接打开一个测序图谱的文件(一般以*.abi、*。ab1、*.scf为扩展名)。

Mega软件的部分统计学基础

1、

遗传距离模型

2、 构树方法比较

2。1 究竟哪一个基于距离的建树程序是最好的

ME和FM似乎是最好的程序程序,它们在模拟研究中所取得的成绩几乎相同。ME在计算机程序中的应用越来越广泛了,包括METRE和PAUP都在使用ME。对于蛋白质数据,PHYLIP中的FM程序提供了最多的时间可逆取代模型,但是没有对位点内部的取代速率差异进行修正.MEGA和METREE软件包包括一个针对蛋白质的gamma修正,但是只有同一个原始的分歧模型(没有距离修正或者偏好修正)结合时才进行修正,这种方法只有当分歧很小时才合理.MEGA也计算同义的和异义的位点的分离距离,但是只有当没有取代或者碱基频率偏好的时候,以及没有

对位点内部的速率差异进行修正的时候,这个方法才合理。因此,对于绝大多数数据集而言,对核苷酸数据应用一个更加理想的模型可能会比MEGA方法要好。 模拟研究指出,对于一个大范围的进化树形状空间,UPGMA的可操作性很差。我们并不赞成使用这种方法,而之所以在这里会提及这个方法,是因为在现在的出版物上经常会出现UPGMA的应用,这一点可以由当前的出版物中出现的UPGMA“基因进化树”证明.很显然,NJ是最快的程序,并且所产生的进化树同ME进化树相比,虽不能说一样,但也已经非常相近了。但是,NJ只产生一个进化树。根据数据结构,有大量不同的进化树可能和NJ进化树一样好,甚至比NJ进化树好得多。

2。2 距离方法、节约方法和最大似然方法的差异

距离方阵方法简单的计算两个序列的差异数量。这个数量被看作进化距离,而其准确大小依赖于进化模型的选择。然后运行一个聚类算法,从最相似(也就是说,两者之间的距离最短)的序列开始,通过距离值方阵计算出实际的进化树,或者通过将总的树枝长度最小化而优化出进化树。用最大节约方法搜索进化树的原理是要求用最小的改变来解释所要研究的分类群之间的观察到的差异。

用于系统发育推论的最大似然方法评估所选定的进化模型能够产生实际观察到的数据的可能性。进化模型可能只是简单地假定所有核苷酸(或者氨基酸)之间相互转变的概率一样.程序会把所有可能的核苷酸轮流置于进化树的内部节点上,并且计算每一个这样的序列产生实际数据的可能性(如果两个姐妹分类群都有核苷酸“A”,那么,如果假定原先的核苷酸是“C\",得到现在的“A\"的可能性比起假定原先就是“A”的可能性要小得多)。所有可能的再现(不仅仅是比较可能的再现)的几率被加总,产生一个特定位点的似然值,然后这个数据集的所有比对位点的似然值的加和就是整个进化树的似然值。

2.3 一些简单的实际的考虑

1. 不管听起来多么荒谬,到目前为止,在进行系统发生的推断分析中,最重要的因素不是进行系统发生推断所采用的方法,而是输入数据的质量.数据选择的重要行以及尤其是比对过程的重要性都不能过高估计。即使是最复杂的系统发生推断方法都不能校正输入数据的错误。

2. 从尽可能多的角度观察数据.使用三种主要方法(距离方法,最大节约方法,最大似然方法)中的每一个,然后比较它们所建立的进化树的一致性。同时,要清醒地意识到我们不能只是因为所有这三个方法产生了相同的进化树,就认为已经达到了相对于真实系统发育的一个较好的评估.不幸的是,由不同方法得到的结果的一致性并不能必然地意味着结果就是统计显著的(或者代表这真实的系统发生史),因为达到一致性的因素很多. 3. 选择外围的分类群同内在的分类群的选择对于分析的影响是相当的。尤其是当外围的分类群同一个或者几个内在的分类群拥有一个相同的不同寻常的属性(比方说,组成偏好或者始终频率)时,问题就会复杂化(Leipe et al。, 1993)。因此合理的做法是用若干个外围的分类群计算每一个分析,检查内在分类群的拓扑结构的一致性。 要清醒地意识到程序可以给出不同的答案(进化树),仅仅是因为序列出现在输入文件的顺序不同。PHYLIP, PAUP以及其它系统发育软件提供了一个“混乱”

选项,可以按照不同的(混乱的)输入顺序重新运算.如果不管是什么原因,必须在一次运行中计算进化树,怀疑有问题的的序列应该放置在输入文件的结尾,以降低进化树重新排布方法受到一个较差的初始拓扑结构(这个拓扑结构来源于任意的有问题的序列)的负面影响的可能性.

3、

自展法原理

因篇幅问题不能全部显示,请点此查看更多更全内容