欢迎来到天天文库
浏览记录
ID:32965607
大小:4.81 MB
页数:50页
时间:2019-02-18
《元基因组序列聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据元基因组序列聚类算法研究EffectivelyClusteringReadsofMetagenomes廖瑞奇2013年5月万方数据指导小组成员名单周水庚教授【lIIIIIIIIIIIIIIIIIIIIIUlIIIIIY2704525万方数据目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..5Abstract.....................⋯⋯...⋯.⋯.....⋯..⋯..⋯.⋯.,⋯.⋯..⋯.⋯..⋯..,⋯.....⋯..........
2、..⋯......⋯....6第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.71.1研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯71.1.1元基因组简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.71.1.2元基因组数据的产生与格式⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯81.1.3元基因组归类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯101.2研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.111.2.1基于序列相似度的方法⋯⋯⋯⋯⋯⋯⋯⋯⋯
3、⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯111.2.2基于序列组成的方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯131.3研究目的⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯141.4研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..151,5本文结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..15第二章方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯172.1方法流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一172.2数据预处理和特征集提取⋯⋯⋯⋯⋯⋯⋯⋯
4、⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一182.3特征降维方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯~182.4聚类方法描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..212.5距离定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一252.6聚类效果评价方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一26第三章实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯283.1数据集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..283.1.1模拟数据集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
5、⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一283.1.2真实数据集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯283.2参数优化及选择⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一313t21k-filet特征提取中k的选择⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯31万方数据3.2.2聚类中距离量度的选择⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一3.2.3使用非负矩阵分解进行特征降维的效果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..3.3模拟数据集上的实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.3.3.1在均匀分布数据集上的实验结果⋯⋯⋯⋯
6、⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯3.3.2来自不同物种的数据具有不同比例时聚类结果的比较⋯⋯⋯⋯..3.3.3元基因组中的序列数目对聚类结果的影响⋯⋯⋯⋯⋯⋯⋯⋯⋯一3.4在真实数据集上的实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.3.5运行时间分析第四章总结与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯42致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯49参考文献n弛弘卵w妁驺万方数据摘要最近五到十年间,随着高通量测序技术的发展,生物研究领域产生了大量的基因组测序数
7、据。其中很大一部分是对生物体内和自然环境中的微生物群落取样并测序而产生的元基因组数据。元基因组数据包含了整个微生物群落的基因组信息,可以用来阐释人类健康,自然进化和生态构成等方面的诸多问题。对元基因组数据的处理与分析正在成为一个全新的生物信息学研究领域。由于元基因组数据混杂了来自多个物种的DNA片段数据,因此对这些片段的归类成为元基因组数据分析中最重要的问题之一。传统的元基因组序列归类方法大多只能处理己知微生物基因组序列片段的归类问题,但是绝大多数的元基因组数据包含来自未知微生物的基因组序列片段,因此需要一种有
8、效的无监督方法来对这些数据进行归类。本文提出了一种基于无监督聚类的元基因组序列归类方法,命名为MCluster。该方法使用k-mer特征提取方法和一种特征权重可变的的无监督聚类方法,可以有效地将来自不同微生物的DNA序列数据区分开来。与以往的有监督方法相比,该方法并不依赖于己知的基因组序列数据。实验结果表明,MCluster在模拟数据集和真实数据集上的表现都超过了已有的无监督聚类方法,
此文档下载收益归作者所有