一种针对基因识别的GHMM简化算法.pdf

一种针对基因识别的GHMM简化算法.pdf

ID:54369678

大小:210.17 KB

页数:5页

时间:2020-04-30

一种针对基因识别的GHMM简化算法.pdf_第1页
一种针对基因识别的GHMM简化算法.pdf_第2页
一种针对基因识别的GHMM简化算法.pdf_第3页
一种针对基因识别的GHMM简化算法.pdf_第4页
一种针对基因识别的GHMM简化算法.pdf_第5页
资源描述:

《一种针对基因识别的GHMM简化算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、国防科技大学学报第26卷第4期JOURNALOFNATIONALUNIVERSITYOFDEFENSETECHNOLOGYVoI.26No.42004文章编号:1001-248(62004)04-0103-04!一种针对基因识别的GHMM简化算法李冬冬,杜耀华,王正志(国防科技大学机电工程与自动化学院,湖南长沙410073)摘要:广义隐Markov模型是计算机基因识别的一种重要模型,它克服了传统隐Markov模型的状态段长成几何分布的缺陷,更加适合于计算机基因识别。其缺点在于计算量大,需要采用有效的简化算法

2、。利用基因的结构特点,在不附加额外限制条件的情况下,提出了一种新的简化算法,其计算复杂度是序列长度的线性函数。对实际生物序列数据的测试结果表明了此简化算法的有效性。关键词:广义隐Markov模型;Viterbi算法;基因识别中图分类号:@61文献标识码:AASimplifiedAlgorithmtoGHMMforGeneFindingLIDong-dong,DUYao-hua,WANGZheng-zhi(CoIIegeofMechatronicsEngineeringandAutomation,Nation

3、aIUniv.ofDefenseTechnoIogy,Changsha410073,China)Abstract:ThegeneraIizedhiddenMarkovmodeI(GHMM)isanimportantmodeIforcomputationaIgenefinding.ComparedwiththetraditionaIhiddenMarkovmodeI(HMM),GHMMneedn’ttheassumptionthattheIengthofeachstateisgeometricaIdistri

4、bution,whiIeitisnecessaryforHMM.ThispropertyisappropriateforcomputationaIgenefinding.ThedemeritofGHMMisitshighcomputationaIcompIexity,whichhindersitfrombeingusedpracticaIIy.Accordingtothecharacteristicofgene’sstructure,anoveIsimpIifiedaIgorithmisproposedwi

5、thoutanyadditionaIassumptions,anditscomputationaIcompIexityisIinearwiththeIengthofseguence.ThetestingresuItforbioIogicaIdatademonstratesthatthesimpIifiedaIgorithmiseffective.Keywords:generaIizedhiddenMarkovmodeI;ViterbiaIgorithm;genefinding隐Markov模型(Hidden

6、MarkovModeI,HMM)最早应用在语音识别中,并获得了极大的成功[1,2]。对生物序列(DNA序列、蛋白质序列)而言,由于它与语音信号具有明显的相似性,因此,近年来,人们也开始把HMM用于生物序列的分析,包括序列比对、蛋白质二级结构预测、基因预测等等,并取得了一定的成功[3]。但是HMM的状态的段长成几何分布,这就限制了它的应用范围。比如对原核生物,其基因编码区的段长分布近似于伽玛分布,而非编码区则是近似于指数分布[4]。为此,人们提出了广义隐Markov模型(GeneraIizedHiddenMa

7、rkovModeI,GHMM),其最大的特点在于状态段长可以是任意分布,从而克服了HMM中状态段长成几何分布的缺陷,使模型能够更好地贴近实际的系统。GHMM的优点使得它被广泛用于基因识别[6,7],并且获得了较高的准确率。事实上,迄今为止,基因识别准确率最高的几种软件都是采用的这一模型[4~8]。然而,这一推广的代价是计算量的增加,以至于不能直接在实际的基因识别中应用,而必须使用简化算法。本文根据基因的结构特点,提出了一种新的简化算法,在不添加额外条件的情况下,获得了与序列长度成线性关系的计算复杂度,对实际

8、生物序列数据的测试表明,此算法是有效的。1模型描述计算机基因识别的任务是对一个给定的DNA序列,指出其中基因的位置及其完整结构。在HMM模型的框架中,这一问题可以形式化地描述如下[4,5]:!收稿日期:2004-03-15基金项目:军队基础研究项目(JC-02-03-021)作者简介:李冬冬(1974—),男,博士生。104国防科技大学学报2004年第4期对一个长度为L的DNA序列!,定义它的一个状态分解!,它由

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。