欢迎来到天天文库
浏览记录
ID:34109721
大小:9.76 MB
页数:118页
时间:2019-03-03
《生物序列特征信息提取方法及其应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中国科学技术大学博士学位论文生物序列特征信息提取方法及其应用作者姓名:学科专业:导师姓名:完成时间:余宏杰模式识别与智能系统黄德双研究员二O一三年二月二十八日IUllIlUIUIIIIUIY2353889UniversityofScienceandTechnologyofChinaAdissertationfordoctor’SdegreeApproachestoFeatureInformationExtractionforBiological一-●—_●■●■■●。一SeqUencesandIhelrApp¨cationsAuthor’SN
2、ame:Hong—JieYuSpecialty:PattemRecognitionandIntelligentSystemAdvisor:Prof.De—ShuangHuangFinishedDate:February28,2013中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了明确的说明。作者签名:签字日期:洳f弓。g--。f/中国科学技术大学学位论文授权
3、使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。作者签名:签字日期:口保密(年)狮段刚{导师签名:签字日期:Ⅵ限g-.¨摘要随着后基因组时代的到来,生物学研究的重点己转向分析解释日益积累的海量数据,生物信
4、息学(也称计算分子生物学)便应运而生,研究内容十分丰富,而其中的序列相似度分析尤为重要。这必然会涉及到生物序列的表征方式,以及序列特征信息的提取方法等核心问题。本文从现有的一些方法普遍存在的问题着手,在算法设计层面和数据应用层面上展开了一系列研究,提出了六种有效的特征信息提取算法模型,并和相关研究成果进行了理论与实验上的比较,验证了我们所提出算法的有效性。全文的主要工作概括如下:(1)生物序列的图形化表示,为我们提供了一个可供研究序列的可视化工具。为了直观地比较不同的DNA序列,本文提出一种新的特征信息抽取模型,可对序列作图形化表示,并作序列
5、之间的相似度分析。引入变换将每条DNA序列用近邻核苷酸矩阵(NNM)来表示。再基于近似联合对角化(A巾),从每条DNA序列变换所得的NNM矩阵中抽取特征值作为表征向量(EVv),视每条E、厂v向量为各自所对应序列的数值描述子(Descriptor)。基于表征向量EW可得DNA序列的二维表征图形。此外,利用肛均值法将这些表征各条序列的曲线图聚为若干个合理的子类。利用所得向量计算成对距离(Pair-wiseDistance),以用来分析原始序列之间的相似度。本方法能同步、联合地从多重序列中抽取更多的信息,而非孤立地分析各条序列。在经典数据集上,构
6、建系统树图验证了本方法的有效性。(2)为了比较不同的基因组序列,提出了新的非比对序列比较方法:考虑到序列具有“序”这一本质属性,基于16种不同类型的2-mer,也即双核苷酸(dinucleotides),定义一种复合变换,能将每条基因组序列转换成16×∞一1)的特征矩阵M。此外,我们还发现上述变换具有“保序”的特性。由矩阵分析理论,对矩阵M施以奇异值分解,来导出16维的向量用以描述每条基因组序列。最后,运用此算法对20条真哺乳亚纲线粒体基因组序列作相似度分析。实验结果表明,在基因组序列图形化表征及相似度分析方面,本算法表现较好。(3)为解决基
7、因组序列维数较高,直接在低维空间数值表征很困难。本文还提出了具有“保距”特性的基因组序列的非比对模型。先将基因组序列转换成16×(L一1)的稀疏矩阵M,对所得矩阵M施以奇异值分解,便得16维“特征值”向量F用以表征每条基因组序列。通过主成分分析(PCA),将所得的前几个主元用于序列之间的比较。从理论上证明了:a)模型属于保距变换;b)16.元组向量与最近邻的双核苷酸数目相关密切。利用“特征值”向量F构建了各组哺乳动物基摘要因组序列系统树图。此外,由主成分分析所得的前两个主元绘制物种的二维“Map图”,用以表征所涉物种间的亲缘关系。分析结果符合
8、己知的哺乳动物谱系关系,揭示了线粒体基因组以及全基因组序列均能v,1z艮好地将不同物种区分开来。本章的算法抓住基因组序列“序”的特性、能够将字符序列“保距”地变换(
此文档下载收益归作者所有