欢迎来到天天文库
浏览记录
ID:37044915
大小:2.13 MB
页数:61页
时间:2019-05-15
《基于深度学习的蛋白质二级结构预测研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于深度学习的蛋白质二级结构预测研究RESEARCHONPROTEINSECONDARYSTRUCTUREPREDICTIONBASEDONDEEPLEARNINGMETHOD赵志山哈尔滨工业大学2017年12月国内图书分类号:TP391.3学校代码:10213国际图书分类号:621.3密级:公开工学硕士学位论文基于深度学习的蛋白质二级结构预测研究硕士研究生:赵志山导师:徐睿峰教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2017年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.3U.D.C:6
2、21.3AdissertationsubmittedinpartialfulfillmentoftherequirementsfortheprofessionaldegreeofMasterofEngineeringRESEARCHONPROTEINSECONDARYSTRUCTUREPREDICTIONBASEDONDEEPLEARNINGMETHODCandidate:ZhishanZhaoSupervisor:Prof.RuifengXuAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:Compute
3、rScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2017Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着生物信息技术不断发展并走向成熟,生物信息学为生命科学领域带来了革命性的进步,极大地推动了生命科学的发展。蛋白质的二级结构是研究蛋白质功能与结构之间如何联系的基础,对药物和酶的设计至关重要。但是通过实验的方式获取蛋白质二级结构需要大量的成本,很难推广使用。近
4、几十年来,科学家们致力于使用机器学习的方法预测蛋白质的二级结构,但预测准确率仍没有达到理想的高度。如何提升蛋白质的二级结构预测准确率成为目前生物信息学领域的一个研究热点。考虑到蛋白质二级结构的形成受到多种因素的影响,本文对应地从氨基酸的表示学习方法、蛋白质二级结构预测模型、融合蛋白质空间结构信息的预测模型三个方面对蛋白质二级结构预测方法进行研究。主要工作包括:氨基酸的表示是蛋白质二级结构预测任务的基础,目前主流的氨基酸表示方式为one-hot向量。但由于one-hot向量过于稀疏,难以存储氨基酸的特性信息。为了捕捉氨基酸自身的物理化学特性和进化信息,本文提出了一种氨
5、基酸嵌入向量和位置特异性矩阵(Position-SpecificScoringMatrix,PSSM)相结合的氨基酸表示学习方法,将蛋白质序列转化为矩阵,更好地表示氨基酸信息。在蛋白质二级结构预测算法方面,为同时提取特定氨基酸的局部上下文与远距离依赖信息,本文将门机制引入到卷积神经网络框架中,提出了一种新的蛋白质二级结构预测模型CNNH_PSS。在CB6133和CB513蛋白质结构预测公开数据集上准确率超越目前已知最好模型,且训练收敛速度加快近50倍。考虑到蛋白质二级结构的形成受到蛋白质结构性质的影响,本文进一步引进了蛋白质溶剂可及性(RelativeSolvent
6、Accessibility,RSA)预测任务,并使用多任务学习方法提取蛋白质溶剂可及性相关特征以辅助蛋白质二级结构预测。针对现有多任务学习框架对相关任务信息利用不充分的问题,提出了一种端到端的迭代多任务学习框架,在CB6133和CB513蛋白质预测公开数据集上的准确率超越了CNNH_PSS模型,达到了目前已知的最优性能。关键词:蛋白质二级结构预测;氨基酸表示学习;卷积神经网络;门机制;多任务学习I哈尔滨工业大学工学硕士学位论文AbstractWiththerapiddevelopmentofbioinformatics,ithasbroughtrevolutiona
7、ryprogressinthefieldofbiologicalscienceandgreatlypromotedthedevelopmentofbiologicalscience.Thesecondarystructureofproteinsisthebasisoftherelationbetweentheirfunctionsandstructures.Theyisessentialinformationinthedesignofdrugsandenzymes.However,obtainingproteinsecondarystructurethrough
此文档下载收益归作者所有