常用进化软件及算法
时间:2006-11-01 来源:good112
常用进化软件及算法 作者:佚名 整理时间:2005-08-04
最近有几个朋友找我要PAUP,很久以前倒是拿过一个b8版,不过用完就丢掉了。这种据说要100$的东西,本来是不抱什么希望可以在网上找到的(这里除外:-),不过还是搜了一下,不幸真的被我撞见一个胆大的家伙,呵呵,公司要是知道了,肯定有他的好果子。http://people.cs.uchicago.edu/~htang/evolution/ b10版,有兴趣的朋友就拿来玩玩。
关 于进化软件,说到PAUP,自然不能不提PHYLIP,算是一对冤家了,提供了基本相同的算法和功能,它们是目前publication中最为流行和可靠 的两个软件。我个人趋向于linux版的PHYLIP,主要是用的习惯了,感觉界面比dos版的友好,操作也比较简单,PAUP有点烦,新人一时半会不好 上手。但是也有很多人心理上偏好商业软件,呵呵,随便了。记得在老贴中放过一个dos版的简易操作指南,需要的就去翻翻。
http://evolution.gs.washington.edu/phylip.html (3.5c和3.6的A版)
前 面有朋友提到MEGA,这也是一个General-purpose的package,算是后起之秀了。用某位教授的话说“以前算非专业进化分析软件”,类 似clustalW那样的cluster功能然后发展起来的进化分析。到现在的2.1版已经做的很出色了,包含了目前几种比较流行的算法,突出的优点是易 用性,操作非常简单,极易上手,所以深受biologists的欢迎,完全可以胜任一般性进化分析的需要了。相比前二者,MEGA简化了一些“高级”功能 模块和参数设置,而且因为没有linux版本这在一定程度上也限制了它的用户群。很奇怪的是,ClustalX目前不兼容MEGA的格式,所以需要将输出 的比对结果用MEGA自带的功能convert一下,然后才能执行操作。不过据说即将推出3.0版,自带multiple alighment功能,那就方便多了。我个人很看好MEGA的前景。顺便说一句,他的帮助文件作的极好,基本就是一本分子进化的教科书了,推荐看看。
http://www.megasoftware.net/text/downloads.sht
除 了上面几种常见的,还有另外几种Special-purpose软件/程序在分子进化领域被“专业化”使用,比如ARB,MrBayes,PAML等等。 前者主要是针对处理像16s/18s/23s ribosomal RNA sequence data而设计的,长于处理大量的数据库序列。后两者则是针对特定的算法(MCMCMC和ML)而开发。各有优势和缺陷,一般只在分子进化的特定领域使 用,不如前面那三种pop(操作不友好也是原因)。有兴趣的朋友可以google一下,他们都是免费的。
关于算法不想多说了,说实话自己懂的也有限:)扯一点心得吧。大家一定很关心具体到某个mission上,究竟采用那种算法比较好?对于不同算法得到的不同结果,究竟接受哪个比较可靠?呵呵,说实话,这是没有标准答案的。“具体问题具体分析”:)
先 来说说NJ(neighboring joining)算法,它是UPGM方法结合临近序列信息而改进的一种算法,可是说是最重要的一种算法了。在paper中,你如果采用NJ算法,基本不会 有人置疑,如果不用,呵呵,十有八九会被人问。当然,这种方法也有它的局限性,我个人的经验,在处理相似度较高、亲缘关系较近的序列时,NJ算法是最可靠 的。
MP(maximum parsimony)算法,也就是PAUP的看家算法。和遗传距离算法不同,它假定树根树顶距离最短,计算时除去各序列中不变的位点和只在一个序列中改变 的位点。因此这种算法的速度是更快的,适合处理大量的和变异比较明显的序列。但是它有个弱点,用这种算法计算所的树往往不是唯一的,还需进一步筛选。而 且,在遇到趋同进化或者进化速率不同的时候,这种方法的结果往往不理想。
ML(maximum likelihood)算法,在MP的基础上计算每个位点转移概率的大小,同时通过调节各个分支的长度和位点来描述最可能的谱系关系。在树的拓扑结构方 面,ML法可能是作的最好的算法。但是相比MP,ML算法的计算量显然大大增加了,所以在处理大量序列的时候,往往需要PC cluster或者大型机才能完成。
还有一些其他的算法比如基于Bayes理论的MCMCMC搜索算法,偶不太熟悉,就不介绍了。最后要 说的是,对于不同的算法得到的不同结果或者同一算法不同参数所造成的结果差异在进化分析中是极为常见的,选择时往往还必须根据其他的因素来综合考虑,有的 时候甚至会是人为的设置或者说人为选择我们所期望的特定结果,呵呵,有点不爽,对吧?不过,根据一些公认的进化关系作为“内参”来比照修正自己的结果应该 是值得考虑的方法。一句话,在进化分析中,没有什么是确定无误的,一切都只是理论上的推导,关键是看结果是否可以接受。
最近有几个朋友找我要PAUP,很久以前倒是拿过一个b8版,不过用完就丢掉了。这种据说要100$的东西,本来是不抱什么希望可以在网上找到的(这里除外:-),不过还是搜了一下,不幸真的被我撞见一个胆大的家伙,呵呵,公司要是知道了,肯定有他的好果子。http://people.cs.uchicago.edu/~htang/evolution/ b10版,有兴趣的朋友就拿来玩玩。
关 于进化软件,说到PAUP,自然不能不提PHYLIP,算是一对冤家了,提供了基本相同的算法和功能,它们是目前publication中最为流行和可靠 的两个软件。我个人趋向于linux版的PHYLIP,主要是用的习惯了,感觉界面比dos版的友好,操作也比较简单,PAUP有点烦,新人一时半会不好 上手。但是也有很多人心理上偏好商业软件,呵呵,随便了。记得在老贴中放过一个dos版的简易操作指南,需要的就去翻翻。
http://evolution.gs.washington.edu/phylip.html (3.5c和3.6的A版)
前 面有朋友提到MEGA,这也是一个General-purpose的package,算是后起之秀了。用某位教授的话说“以前算非专业进化分析软件”,类 似clustalW那样的cluster功能然后发展起来的进化分析。到现在的2.1版已经做的很出色了,包含了目前几种比较流行的算法,突出的优点是易 用性,操作非常简单,极易上手,所以深受biologists的欢迎,完全可以胜任一般性进化分析的需要了。相比前二者,MEGA简化了一些“高级”功能 模块和参数设置,而且因为没有linux版本这在一定程度上也限制了它的用户群。很奇怪的是,ClustalX目前不兼容MEGA的格式,所以需要将输出 的比对结果用MEGA自带的功能convert一下,然后才能执行操作。不过据说即将推出3.0版,自带multiple alighment功能,那就方便多了。我个人很看好MEGA的前景。顺便说一句,他的帮助文件作的极好,基本就是一本分子进化的教科书了,推荐看看。
http://www.megasoftware.net/text/downloads.sht
除 了上面几种常见的,还有另外几种Special-purpose软件/程序在分子进化领域被“专业化”使用,比如ARB,MrBayes,PAML等等。 前者主要是针对处理像16s/18s/23s ribosomal RNA sequence data而设计的,长于处理大量的数据库序列。后两者则是针对特定的算法(MCMCMC和ML)而开发。各有优势和缺陷,一般只在分子进化的特定领域使 用,不如前面那三种pop(操作不友好也是原因)。有兴趣的朋友可以google一下,他们都是免费的。
关于算法不想多说了,说实话自己懂的也有限:)扯一点心得吧。大家一定很关心具体到某个mission上,究竟采用那种算法比较好?对于不同算法得到的不同结果,究竟接受哪个比较可靠?呵呵,说实话,这是没有标准答案的。“具体问题具体分析”:)
先 来说说NJ(neighboring joining)算法,它是UPGM方法结合临近序列信息而改进的一种算法,可是说是最重要的一种算法了。在paper中,你如果采用NJ算法,基本不会 有人置疑,如果不用,呵呵,十有八九会被人问。当然,这种方法也有它的局限性,我个人的经验,在处理相似度较高、亲缘关系较近的序列时,NJ算法是最可靠 的。
MP(maximum parsimony)算法,也就是PAUP的看家算法。和遗传距离算法不同,它假定树根树顶距离最短,计算时除去各序列中不变的位点和只在一个序列中改变 的位点。因此这种算法的速度是更快的,适合处理大量的和变异比较明显的序列。但是它有个弱点,用这种算法计算所的树往往不是唯一的,还需进一步筛选。而 且,在遇到趋同进化或者进化速率不同的时候,这种方法的结果往往不理想。
ML(maximum likelihood)算法,在MP的基础上计算每个位点转移概率的大小,同时通过调节各个分支的长度和位点来描述最可能的谱系关系。在树的拓扑结构方 面,ML法可能是作的最好的算法。但是相比MP,ML算法的计算量显然大大增加了,所以在处理大量序列的时候,往往需要PC cluster或者大型机才能完成。
还有一些其他的算法比如基于Bayes理论的MCMCMC搜索算法,偶不太熟悉,就不介绍了。最后要 说的是,对于不同的算法得到的不同结果或者同一算法不同参数所造成的结果差异在进化分析中是极为常见的,选择时往往还必须根据其他的因素来综合考虑,有的 时候甚至会是人为的设置或者说人为选择我们所期望的特定结果,呵呵,有点不爽,对吧?不过,根据一些公认的进化关系作为“内参”来比照修正自己的结果应该 是值得考虑的方法。一句话,在进化分析中,没有什么是确定无误的,一切都只是理论上的推导,关键是看结果是否可以接受。
相关阅读 更多 +
排行榜 更多 +