欢迎来到天天文库
浏览记录
ID:33235061
大小:2.68 MB
页数:91页
时间:2019-02-22
《生物信息数据挖掘中的若干方法及其应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大连理工大学博士学位论文生物信息数据挖掘中的若干方法及其应用研究姓名:宋杰申请学位级别:博士专业:运筹学与控制论指导教师:唐焕文20050401大连理丁大学博十学位论文摘要许多生物(包括人在内)的基因组测序已经完成或接近完成,在揭示这些巨量数据所蕴涵的信息时,产生了--f-]新的交叉学科一生物信息学,通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。数据挖掘技术用于在数据库中发现潜在有用的知识,在生物信息学研究当中,jF发挥着越来越重要的作用,而且取得了丰硕的成果。本文探讨若干生物信息数据挖掘的方
2、法及其应用,主要工作如下:1.用支持向量机和FDOD两种方法对同源寡聚蛋白质进行了分类研究。GarianR,和用决策树方法从蛋白质一级结构出发对同源二聚体和同源非二聚体进行了分类,证实了蛋白质一级结构即氨基酸序列包含四级结构信息。本文用SVM和FDOD两种方法对同源二聚体和同源非二聚体进行分类,利用原始序列的子序列分布作为特征向量。采用和决策树方法同样的数据集,两种方法均大幅度提高了预测准确率。本文也对同源二聚体、同源三聚体、同源四聚体和同源六聚体进行了分类,取得了好的结果。2.构造了基于线性规划的p—SVM分类器。Sch61kopfB等提
3、出的基于二次规划的V一支持向量机(y—SVM)相比标准的SVM,其优势在于可以控制支持向量的数目和误差,但由于增加了模型的复杂性,限制了其应用。本文构造了一种基于线性规划的v—SVM分类器,模型简单,参数r具有明确的意义,同样可以控制支持向量的数目和误差,可以直接利用比较成熟的线性规划算法。数值试验表明,本文提出的基于线性规划的v—SVM的训练速度要比基于二次规划的v—SVM快得多,而分类效果两者相当。3.提出了无参数鲁棒线性规划支持向量机分类的牛顿算法。MangasarianOL最近提出的无参数鲁棒线性规划支持向量机克服了标准SVM需要选
4、取正则化参数等一些缺点,其模型是一个线性规划。本文给出了这种线性规划的精确的最小2一范数解,在此基础上提出了快速的牛顿算法,此算法只需要一个线性方程组解算器。理论、数值实验以及在癌症基因表达数据分类上的应用都表明了用牛顿算法实现的无参数鲁棒线性规划支持向量机模型合理、简单,算法快速、容易实现。4.用FDOD方法对DNA序列进行相似性分析。序列的比较是生物信息学中最常用的研究手段之一,其根本任务是发现序列之间的相似性和不相似性。序列比对是序列比较的主要方法,但有其不足之处,所以很多人寻求用其他方法来比较DNA序列。本文摘要用FDOD方法对DN
5、A序列进行相似性分析,只考虑了序列的~级结构,同时在一定程度上考虑了序列中的碱基顺序。用不同的子序列长度对11个物种的∥.globin基因的第一个外显子序列进行了相似性分析,证实了该方法是有效的。5.提出了DNA序列的一种新的2一D图形表示,给出了相应的数值刻划方法,并应用到DNA序列的相似性分析。DNA序列的图形表示方法可以使我们更直观地观察DNA序列,加强对序列的比较、分析和识别。基于代数中的同态思想和核酸碱基的化学结构分类提出了DNA序列的一种新的简单直观的2一D图形表示方法,这种图形表示方法能够反映碱基的分布情况;避免了序列几何图形
6、表示方法中曲线的重叠和交叉;可以导出相应的数值刻划。相似性分析的结果表明这种新的图形表示和数值刻划方法是合理的和有效的。关键词:生物信息学;数据挖掘;支持向量机:FDOD;蛋白质;DNA;图形表示II大连理_r:大学博十学位论文StudyonsomedataminingmethodsforbiologicalinformationandtheirapplicationAbstractThesequencingofseveralgenornes,includingthehumangenome,hasprovidedavastamountofd
7、atawhichmustbeexploited.Bioinformaficsisessentiallythescienceoftakingthis.InBioioformaticsresearchersstudyhowtocapture,manage,deposit,retrieve,analyzebiologicalinformationenablingthediscoveryofencyclopedicbiologicalknowledge.DataminingtecKnologyisusedtoextractpotentialandu
8、sefulinformmionfromthedatabases,andisplayingallincreasinglyimportantroleinthestudyofBioio
此文档下载收益归作者所有