基于基因序列聚类和分类研究

基于基因序列聚类和分类研究

ID:34776218

大小:1.99 MB

页数:60页

时间:2019-03-10

基于基因序列聚类和分类研究_第1页
基于基因序列聚类和分类研究_第2页
基于基因序列聚类和分类研究_第3页
基于基因序列聚类和分类研究_第4页
基于基因序列聚类和分类研究_第5页
资源描述:

《基于基因序列聚类和分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、湖南大学硕士学位论文基因序列聚类和分类研究姓名:吴君浩申请学位级别:硕士专业:计算机软件与理论指导教师:骆嘉伟20060325硕士学位论文l!IIi.i,i!I..I!!#!。_##=

2、==E自_#E!{自E!__e摘要随着现代生物技术的不断发展特别是基因组计划的实施,人们不断获取大量的基因序列数据,准确、高效的对基因序列数据进行分析并挖掘出隐藏在其中的对人类有用的信息是非常必要的。聚类和分类技术正是能够对大量基因数据进行分析的技术。本文着重研究基因序列数据中的聚类和分类算法。K一均值聚类算法是一种常用的聚类算法,它采用重复再分配类成员,使同一个类成员之间分散度最小的方法来获得最佳聚类结果。

3、本文提出了一种基于隐马尔可夫模型的二次K.均值基因序列聚类算法,引入了同源基因序列核苷酸比率趋向于一致的生物学特征来对基因序列数据量化并进行初次K.均值聚类,再将第一次聚类结果作为输入训练出表征序列特征的隐马尔可夫模型,最后采用基于模型的K.均值方法聚类,使得算法具有较好的聚类正确率。在研究了微生物基因核苷酸分布规律的基础上,本文提出了一种使用微生物遗传特征来进行基因序列聚类的方法。首先从每条基因序列中划分出若干个等差长度的采样片断,然后利用各采样片断的遗传特征值来作为基因序列聚类的依据。这是一种相对灵敏而且客观和可信度商的分类方法,试验结果表明该方法是可行的并且具有较好的聚类效果。在对基因

4、序列进行分类的过程中如果训练样本种类不全,那么用常规分类方法进行基因序列的分类就会出现类缺失的情况。针对这个问题本文利用基因序列独特的排列及结构特征提出了多个新的与模型相关的度量方法,通过模型间距离矩阵获得的阀值动念调整分类的个数,这样就克服了人为假设已标记类个数为实际类个数的局限性,减少了训练样本种类不全对模型迭代训练的负面影响,成功解决了序列训练样本种类不全导致类缺失的问题。关键词:聚类;分类;基因序列;隐马尔可夫模型:K.均值基冈序列聚类和分类研究Withthecontinuousdevelopmentofmodernbiologytechnology,especiallytheimp

5、lementoftheHumanGenomeProject,peoplehavegraduallyacquiredquantitiesofgenesequencesdataandit’Squitenecessarytoanalyzegenesequencesdataaccuratelyandefficiently,aswellastominepotentialusefulinformationfurpeople.ClusteringandClassificationarejusttwomainmethodsofanalyzingquantitiesofgenedata.Thispaperfo

6、cusesontheClusteringandClassificationalgorithmsingenesequencesdata.K—meansisacommonClusteringalgorithmwhichmakesmembersinasameclasshavetheminimumdispersionviareassignclassmembersinordertoobtainthebestclusteringresults.InthispaperwediscussadoubleK·meanmode-basedalgorithmtomodelingandclusteringgenese

7、quencesdata,usinghiddenmarkovmodels(HMMs).First,thebiologicalcharacteroffournucleotidesratioofhomologousgenesequenceswhicharetrendtoaccordantisproposedtoinitialK—meanclusteringongenesequencesdata,andsecond,thefirstclusteringresultsateusedasinputtotrainsomeHMMsthatcandenotesequencesidentitieswell.Fi

8、nally,mode—basedK·meanapproachisadaptedtoclusteringagain,thismakesthenewalgorithmhasbetterquality.Onthebasisofstudyingthedistributingrulesofmicrobialnucleotides,thispaperdiscussesamethodtoclusteringsequenti

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。