面向宏基因组测序片段的分类方法研究

面向宏基因组测序片段的分类方法研究

ID:37045101

大小:2.97 MB

页数:65页

时间:2019-05-17

面向宏基因组测序片段的分类方法研究_第1页
面向宏基因组测序片段的分类方法研究_第2页
面向宏基因组测序片段的分类方法研究_第3页
面向宏基因组测序片段的分类方法研究_第4页
面向宏基因组测序片段的分类方法研究_第5页
资源描述:

《面向宏基因组测序片段的分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文面向宏基因组测序片段的分类方法研究RESEARCHONCLASSIFICATIONOFMETAGENOMICSEQUENCINGFRAGMENT马静哈尔滨工业大学2017年12月国内图书分类号:TP39学校代码:10213国际图书分类号:004.9密级:公开工学硕士学位论文面向宏基因组测序片段的分类方法研究硕士研究生:马静导师:王亚东教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2017年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP39U.D.C:0

2、04.9AdissertationsubmittedinpartialfulfillmentoftherequirementsfortheacademicdegreeofMasterofEngineeringRESEARCHONCLASSIFICATIONOFMETAGENOMICSEQUENCINGFRAGMENTCandidate:MaJingSupervisor:Prof.WangYadongAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:Compu

3、terScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2017Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着新一代测序技术的发展,大量的宏基因组测序片段能够在短时间内以较低的成本产生,这极大的促进了人们对微生物群落的研究。其中,对宏基因组测序片段的分类是宏基因组学中的重要研究内容,不仅是微生物群落物种多样性研

4、究的重要前提,也对微生物群落的功能分析具有极其重要的意义。由于微生物群落中多丰度物种的存在、测序技术对于测序片段长度的限制、参考基因组的数量有限等难点存在,实现对宏基因组的准确分类成为宏基因组领域内研究的热点和难点。现有的宏基因组测序片段分类方法的准确率仍然有待提高,尤其是在参考数据库中没有相近的参考基因组时,分类的准确率会大幅度下降。如何将海量的宏基因组测序数据准确的分类是本课题的主要研究内容。本课题主要针对现有的宏基因组短测序片段分类方法准确率较低,且在参考数据库中没有相近的参考基因组时无法保证分类稳定性的问题,

5、研究了一种基于序列组成特征的无监督分装算法,同时在分装算法的基础上使用带权重的编码区相似度匹配算法以及在参考基因组上建立的分类模型确定宏基因组测序片段的分类层次以及所属类别。为了获得更高纯度的分装结果并且减少相似度匹配的时间,研究了宏基因组拼接算法在宏基因组分类中的应用,选择效果最好的拼接算法预处理短测序片段。为了让分类方法适用于同丰度和多丰度两种情况,研究了宏基因组多丰度的处理方法并应用于该分类算法中。为了提高聚类的纯度,研究了基于序列组成特征的宏基因组测序片段相似度的分布,比对适用于该分布的多种聚类算法的聚类效果

6、,选择聚类结果纯度最高的聚类方法。为了提高查询相似参考基因组的准确率,分析子序列对于不同参考基因组的重要程度,设计带权重的编码区相似度匹配算法。根据相似度匹配算法研究参考基因组之间相似度的分布,设计基于机器学习的多层次分类算法,保证那些在参考数据库中没有相近参考基因组的序列也能够被准确的分类。本课题算法主要由拼接预处理,测序片段丰度分区,谱聚类,带权重的编码区相似度匹配,建立基于SVM的分类模型这五个部分组成。实验结果表明,在物种丰度不均匀以及参考数据库中没有相近参考基因组的情况下,该分类方法的准确率都有所提升。关键

7、词:宏基因组;多丰度分区;谱聚类;带权相似度匹配;分类模型-I-哈尔滨工业大学工学硕士学位论文AbstractWiththedevelopmentofnext-generationsequencingtechnology,alargenumberofmetagenomicsequencingfragmentscanbegeneratedatalowcostinashorttime,whichgreatlypromotedthestudyofmicrobialcommunities.Amongthem,theclass

8、ificationofmetagenomicsequencingfragmentsisanimportantresearchcontentinmetagenomics.Itisnotonlyanimportantpremiseofthemicrobialcommunityspeciesdiversityresearch,butalsohasan

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。