欢迎来到天天文库
浏览记录
ID:36838767
大小:3.31 MB
页数:105页
时间:2019-05-16
《蛋白残基可溶性预测及基因表达数据分析方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要摘要随着计算机和互联网技术的迅速发展,生物学研究领域发生了巨大的变化。生物信息学是结合了生物学和信息学技术的一门新兴交叉学科,是将信息技术应用于生物数据进行存储、管理、分析的学科。它不仅是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。系统生物学和生物信息学相同,是伴随着生物学、信息技术的发展而诞生的交叉学科。系统生物学和人类基因组计划有着密切的关系,正是在基因组学、蛋白质组学等新型大科学发展的基础上,孕育了系统生物学。系统生物学是研究一个生物系统中所有组成成分(基因、mRNA、蛋白质等)的
2、构成,以及在特定条件下这些组分间的相互关系的学科。进行系统生物学的研究,仅仅依靠传统生物学手段已经远远不能满足要求。数学,物理学,信息学的发展为系统生物学提供了有用的技术手段。而大规模计算机的出现更使得大规模数据的计算成为现实。系统生物学将是21世纪医学和生物学的核心驱动力。生物信息学和系统生物学的发展将不仅对相关基础学科起巨大的推动作用,还将对农业、医药、卫生、食品等产业产生巨大的影响。当前生物信息学和系统生物学的一个重要发展方向是发展基于机器学习方法的数据分析技术。相对于传统的试验方法,机器学习方法具有快速、自动的优点,尤其适
3、用于高通量大规模生物数据分析。本文主要研究内容如下;(1)从蛋白质一级氨基酸序列对蛋白质的三维空间结构进行预测是生物信息学研究的重点、难点之一。作为一种可行的辅助手段,对蛋白质氨基酸残基可溶性的预测引起了广大生物信息学家的关注。蛋白质可溶性表征蛋白质残基在三级结构中与溶剂接触的程度,是反映蛋白三级结构以及功能位点的主要特征。本文采用支持向量机方法对蛋白质氨基酸残基可溶性进行预测。按照一定的阈值将蛋白质氨基酸残基可溶性分成两类(内部/表面)或三类(内部/ee间/表面),并选择不同窗宽和参数对数据进行训练和预{煲!l,以确保得到最好的
4、分类效果。在不同数据集上和其他已有方法进行比较:对同一数据集不同分类闺值的预测结果显示,支持向量机方法对蛋白可溶性的整体预测效果好于神经网络和信息论的方法。其中,对两类数据的最优分类结果达到79.O%,对三类数据的最优分类结果达到67.5%,表明支持向量机是蛋白残基可溶性预测的一种有效方法。(2)2DNA微阵列技术是一种近年来发展起来的新型高通量生物检测技术。微阵列技术能够在基因组规模上对基因表达谱、患者基因型、药物代谢、疾病的发生和发展过程进行快速和定量的分析,这种技术便孝荨学家在单次试验中就可以分析某神生物的整个基因组。因为各
5、种原因,如图片解析度不够、图象损坏都会造成微阵列表达谱数据的缺失,影响后续的数据分析。本文提出了一种新的基于正交输入编码和支持向量回归方法的基因表达谱缺值估计方法。该方法采用支持向量回归估计缺值,并且采用正交向量编码的方法解决在某些表达谱数据的行中具有多个缺失值的问题。在六个不同的数据集上和其他已有方法进行比较。由于正交输入编码方法使得计算中最大程度考虑了整个基因表达谱的信息,并且支持向量回归方法是一种具有坚实的统计学习理论基础的机器学习方法,保证了该方法在各个数据集上均有较好的估值性髓。当数据中混有不同程度噪声时,该方法也表现出
6、较好的鲁棒性。因此该方法在基因表达谱缺值估计方面是一种有效的方法.(3)由DNA微阵列实验获得的基因表达谱中蕴含着丰富的生物信息,如何从表达谱数据中发现这些生物信息,构建相关的生物网络体系,是系统生物学研究关注的闯题之一。本文使用贝叶斯网络结构推断的方法,利用基因表达谱数据进行调控网络重构的工作。分别采用离散和连续数据作为输入数据,在结构推断中采用不同的近似方法对目标贝叶斯网络拓扑结构进行推断。在酿酒酵母基因的表达谱数据集上的结果表明,不同近似方法可以获得类似的网络拓扑结果。结合已知的生物学信息,分析所获得的部分网络,结果表明,贝
7、叶斯网络结构推断的方法可以获得具有生物学意义的网络拓扑结构。可以为生物学家提供实验设计的依据。关键词:生物信息学,系统生物学,氨基酸残基,可溶性,微阵列,基因表达谱,调控网络,缺值估计,机器学习,支持向量机。支持向量回归,贝叶斯网络本文的研究工作得到了中国科学技术大学高水平大学建设重点项目以及国家科技部重点科研项目(2004AA235110)和中国科学技术大学研究生创新基金(KD2004053)的资助。一11—英文摘要AbstractComputersandtheWorldWideW曲arerapidlyanddramatical
8、lychangingthefaceofbiologyresearch.Bioinformaticsisanewlyinterdisciplinaryresearchal'ea,whichisthemarriageofinformationtechn
此文档下载收益归作者所有