基于聚类和团求精的模体识别算法

基于聚类和团求精的模体识别算法

ID:36747199

大小:1.07 MB

页数:56页

时间:2019-05-14

基于聚类和团求精的模体识别算法_第1页
基于聚类和团求精的模体识别算法_第2页
基于聚类和团求精的模体识别算法_第3页
基于聚类和团求精的模体识别算法_第4页
基于聚类和团求精的模体识别算法_第5页
资源描述:

《基于聚类和团求精的模体识别算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要生物体基因的表达借助于具有调控作用的蛋白质和DNA序列中的调控位点的结合来完成,而调控位点出现在相关基因的上游调控区域,并且通常是保守的序列模式,即模体。因此,模体识别对于深入研究基因调控机制、发现生物功能位点有着重要的意义。模体识别问题是生物信息学主要的研究领域之一,是计算生物学的核心问题之一,是近年来研究的热点问题。本文首先介绍了模体识别问题的研究背景和意义,介绍了模体的表示方法、评分标准,和模体识别问题的定义,并对模体识别问题的研究现状进行了介绍。根据模体识别问题的现状,提出了利用基于聚类和

2、团求精的模体识别算法(AClusterandCliqueRefinementApproachtoMotifDiscovery,CCRMD)来解决模体识别问题,基本思想是利用基于信息熵的聚类算法求出一系列的候选模体实例的集合(每个集合就是一个聚类),将每个候选模体实例集转化为图,利用求图的所有团的算法对每个候选模体集进行求满足一定条件的相似字符串的集合,对每个字符串集合求其一致序列,去输入序列中查找模体实例,并求出模体。针对模拟数据和真实数据的仿真实验结果表明,CCRMD算法具有较高的平均性能系数。但是

3、,本文算法不足的地方是仅仅用于解决每条序列中仅含有一条模体实例的模体识别问题,通过改进,可以用于解决每条序列中含有多条模体实例的情况。关键词:模体识别聚类算法团一致序列AbstractExpressionofgenesinorganismsisusuallyfinishedwiththeaidofregulationproteinandtheregulatorysitesinDNA;theregulatorycitesareusuallyupstreamtotheregulatoryregions,a

4、ndconservative,whichiscalledmotif.Asaresult,motifdis-coveryissignificantonfurtherresearchongeneregulatorymechanismsandfindingBiologicalfunctionsites.Therefore,motifdiscoveryisoneofthemainresearchfieldsinbioinformatics.ItisthecoreofComputationalBiologica

5、landthehotresearchissuesinrecentyears.Thispaperintroducesthebackgroundandsignificanceofmotifdiscovery,there-presentationandevaluationstandardofmotif,thedefinitionofmotifdiscovery,andthecurrentsituationofmotifdiscovery.Thenthispaperproposesaclusterandcli

6、quere-finementapproachtomotifdiscovery(CCRMD)tosolvetheproblemofmotifdiscov-ery,itsbasicideaistouseclusteralgorithmbasedoninformationentropytoobtainaseriesofcandidatemotifinstancesets(eachsetisacluster),thenchangeeachcandidatemotifinstancesetintoagraph,

7、andusethealgorithmoffindingallcliquesofagraphtoobtainacollectionofsimilarstringswhichmeetscertainconditionsforeachcandi-datemotifinstanceset,thenfindmotifinstancesintheinputsequencesaccordingtothehomologoussequencesofeachcollectionofstrings,finallyobtai

8、nthemotif.ExperimentalresultsdemonstratethatCCRMDperformswellonbothsimulatedandbiologicalsamples.ThedeficiencyofthisthesisisthatCCRMDonlysolvetheproblemwiththeassumptionofexactlyoneoccurrence(ofmotifinstance)perse-quence,however,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。