欢迎来到天天文库
浏览记录
ID:37044861
大小:3.49 MB
页数:78页
时间:2019-05-17
《基于机器学习的生物序列分析方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于机器学习的生物序列分析方法研究RESEARCHONBIOLOGICALSEQUENCEANALYSISMETHODBASEDONMACHINELEARNING吴颢哈尔滨工业大学2017年12月国内图书分类号:TP391.4学校代码:10213国际图书分类号:621.3密级:公开工学硕士学位论文基于机器学习的生物序列分析方法研究硕士研究生:吴颢导师:刘滨教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2017年12月授予学位单位:哈尔滨工业大学Classifi
2、edIndex:TP391.4U.D.C:621.3AdissertationsubmittedinpartialfulfillmentoftherequirementsfortheacademicdegreeofMasterofEngineeringRESEARCHONBIOLOGICALSEQUENCEANALYSISMETHODBASEDONMACHINELEARNINGCandidate:HaoWuSupervisor:Prof.BinLiuAcademicDegreeAppliedfor:M
3、asterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2017Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要在生物信息学领域,基于机器学习处理生物序列分析问题通常基于以下三个主要步骤:生物序列特征提取,基于机器学习方法构造分类器以
4、及分类器性能评估。然而对非计算机专业的相关研究人员来说,提出一个分析方法代价较大,而现有的一些序列分析工具又各具有局限性。为了解决这些问题,本课题研究了基于机器学习的生物序列分析方法并基于相关方法理论研究提出了用于解决三个实际序列分析问题的可行方法。最后设计实现了基于机器学习的生物序列分析平台以提供一个方便实用功能全面的序列分析工具。针对生物序列分析问题,本课题研究了基于机器学习解决生物序列分析问题的主要步骤。深入研究了当前常用的生物序列特征提取方法,研究了序列分析领域常用的机器学习方法以及用于评估利
5、用机器学习方法构造分类器性能的常用方法和评价指标。通过对三个步骤的研究,明确了解决一个生物序列分析问题的关键步骤,作为针对具体序列分析问题提出可行的序列分析方法以及实现生物序列分析工具的理论基础。基于对生物序列分析问题的研究,本课题对三个具体的序列分析实际问题提出了相应的序列分析方法。针对DNaseI超敏感位点识别问题,提出了基于多特征融合的方法,该方法在特征向量生成过程中融合三种特征提取方法,对最终的特征向量基于特征选择方法去除冗余特征,基于支持向量机构造分类器并进行性能评估。针对微小RNA前体识别
6、问题,提出了基于多类特征集成的方法,该方法基于三种不同的特征提取方法分别构造分类器然后将三个分类器集成以取得更好的结果。针对DNA结合蛋白识别问题,提出了基于集成学习的方法,本课题首先对基于缩减字母表的距离对方法进行了改进,利用频率谱加入了进化信息,从而提升了方法性能,之后将其与另一种序列信息相关的方法进行集成学习。分析实验结果表明本课题提出的三个方法在问题研究中均有不错的性能,相比领域内前沿方法在预测结果上均有提升,取得了较优的预测结果。表明了三个方法在相关研究中的应用前景,同时也展现了序列分析方法
7、研究在解决实际序列分析问题应用中的重要作用。将理论研究转化为实用的工具是能够解决生物序列分析问题的关键,本课题基于对生物序列分析方法的研究实现了通用的基于机器学习的生物序列分析平台。该序列分析平台包含了多种常用的生物序列特征提取方法以及生物序列分析领域常用的机器学习算法,同时加入了多种分类器评估方法。此-I-哈尔滨工业大学工学硕士学位论文外,还包含了特征选择和对数据集样本不平衡问题的解决方法。该平台是一个功能全面且通用的生物序列分析平台,可以用来解决多种不同的生物序列分析问题。关键词:生物序列分析方法
8、;特征提取;机器学习;生物序列分析平台-II-哈尔滨工业大学工学硕士学位论文AbstractInbioinformaticsarea,dealingwithbiologicalsequenceanalysisproblemsbasedonmachinelearningcontainsthreemainsteps:featureextractionmethodsofbiologicalsequences,predictorconstructionbased
此文档下载收益归作者所有