基于深度学习的蛋白质远同源性检测

基于深度学习的蛋白质远同源性检测

ID:37044894

大小:2.19 MB

页数:61页

时间:2019-05-17

基于深度学习的蛋白质远同源性检测_第1页
基于深度学习的蛋白质远同源性检测_第2页
基于深度学习的蛋白质远同源性检测_第3页
基于深度学习的蛋白质远同源性检测_第4页
基于深度学习的蛋白质远同源性检测_第5页
资源描述:

《基于深度学习的蛋白质远同源性检测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于深度学习的蛋白质远同源性检测PROTEINREMOTEHOMOLOGYDETECTIONBASEDONDEEPLEARNING李舒敏哈尔滨工业大学2017年12月国内图书分类号:TP391.4学校代码:10213国际图书分类号:621.3密级:公开工学硕士学位论文基于深度学习的蛋白质远同源性检测硕士研究生:李舒敏导师:刘滨教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2017年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.4U.D.C:621.3Adissertationsubmittedinparti

2、alfulfillmentoftherequirementsfortheacademicdegreeofMasterofEngineeringPROTEINREMOTEHOMOLOGYDETECTIONBASEDONDEEPLEARNINGCandidate:ShuminLiSupervisor:Prof.BinLiuAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:De

3、cember,2017Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要由于下一代测序技术的飞速发展,蛋白质序列信息的数量也随之迅猛增长。然而,受到人力,物力的限制,蛋白质的结构和功能信息却增长缓慢。如何通过计算的途径预测未知蛋白质的结构和功能,成为生物信息学中核心问题之一。蛋白质间的远同源性指的是蛋白质之间序列相似度低,但结构和功能相似度高。通过对未知蛋白质进行远同源性检测,能够初步推断出它的结构和功能,它的目的就是将未知蛋白质分类到某个具有相似结构和功能的蛋白质超家族当中。基于传

4、统机器学习的分类方法在性能上很大程度依赖于构建的蛋白质特征的质量,而人工构建的蛋白质特征向量往往丢失了很多信息。深度学习算法的一大优势就是能够从原始数据中自动地提取特征。本文旨在用深度学习算法从蛋白质序列中提取更具有判别力的特征,用以解决蛋白质远同源性检测的问题。主要研究内容包括以下几个方面:本文提出了基于LongShort-TermMemory(LSTM)的蛋白质远同源性检测方法ULSTM。通过设计的网络结构,ULSTM能够利用LSTM的每个中间输出和随时间分布的全连接层达到更好的处理长蛋白质序列以及汇总依赖关系信息的目的。ULSTM在基准数据集上的性能表现优异,ULSTM-O

5、neHot的ROC分数为0.965,ROC50分数为0.794,ULSTM-PSSM的ROC分数为0.985,ROC50分数为0.925,均超过了领域内其他相关方法的性能。说明了ULSTM的网络结构能使它从原始数据中自动提取出更加具有判别力的特征向量。本文进一步提出了改进型蛋白质远同源性检测方法:BLSTM。BLSTM能够使更加全面的依赖关系信息包含进双向LSTM层的中间输出中,使它的性能得到进一步提高。其中BLSTM-OneHot的ROC分数为0.965,ROC50分数为0.810,BLSTM-PSSM的ROC分数为0.986,ROC50分数为0.923。此外,本文提出了蛋白质

6、远同源性检测方法:CNN-BLSTM。CNN-BLSTM能够通过首先侦测到蛋白质中的“重要”子序列,然后抽取这些“重要”子序列间的依赖关系信息。因此,CNN-BLSTM-PSSM在基准数据上取得了最好的效果(ROC分数:0.984,ROC50分数:0.938)。同时,通过可视化技术,本文举例说明了CNN-BLSTM侦测蛋白质模式的能力。此外,本文还通过将不同深度学学习模型抽取的蛋白质特征向量进行融合,进一步提升了预-I-哈尔滨工业大学工学硕士学位论文测性能。本文采用了一种深度学习模型与排序算法融合的框架,来解决在现实应用中,训练样本不足的问题。通过实验,CNN-BLSTM-PSS

7、M与HHblits的融合在基准数据集上取得了优越的性能,其ROC分数达到了0.998,ROC50分数达到了0.981。综上所述,本文基于深度学习算法,围绕蛋白质远同源性检测问题,提出了三种性能优越的基于深度学习的蛋白质远同源性检测模型,并通过深度学习模型之间的融合,进一步提升了性能。最后,通过深度学习模型与排序方法融合,使其更加适合现实环境下应用。关键词:蛋白质远同源性检测;深度学习;长短期记忆网络;卷积神经网络-II-哈尔滨工业大学工学硕士学位论文AbstractWiththe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。