欢迎来到天天文库
浏览记录
ID:35183309
大小:2.30 MB
页数:52页
时间:2019-03-21
《机器学习算法在蛋白质结构预测中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号密级硕士学位论文题目:机器学习算法在蛋白质结构预测中的应用英文并列题目:ApplicationofMachineLearningAlgorithminProteinStructurePrediction研究生:薛燕娜专业:软件工程研究方向:软件工程技术导师:董洪伟指导小组成员:学位授予日期:2016年6月答辩委员会主席:张曦煌江南大学地址:无锡市蠡湖大道1800号二0一六年六月摘要摘要随着人类基因组计划的实施和生物科学技术的发展,生物信息学的发展速度相当快,它利用计算机科学技术解决生物学中的各种问题。计算机被用于收集、存储和分析
2、生物信息以及生物遗传信息,然后这些信息就可以被用于以基因为基础药物的研究与开发。继基因组学和转录组学之后,蛋白质组学是生物信息学系统的主要研究课题。它是对特定蛋白质组的综合性研究,包括蛋白质在细胞运行过程中的改变,以及蛋白质间的相互作用。随着蛋白质测序技术和X-射线晶体衍射技术等试验技术的发展,大量的蛋白质序列和结构数据很容易被获得,且蛋白质功能分析方法日益成熟,使得我们可以充分利用机器学习方法,学习已知的蛋白质序列和结构数据中的规律,预测未知的蛋白质的结构和功能。本文采用机器学习方法中效率最高的深度学习算法(deeplearning
3、)来对蛋白质组学中蛋白质的相互作用预测和蛋白质的二级结构预测两大问题进行了深入的研究。本文主要研究内容如下:1)提出了一种改进的深度玻尔兹曼机(DBM)模型来预测蛋白质的相互作用,为了避免采用sigmoid或tanh激活函数在深度网络中出现过饱和的问题,采用ReLU激活函数改进的玻尔兹曼机(RBM),使网络具备稀疏性,从而避免模型过拟合,加快收敛速度。网络结构采用了两层RBM组成的DBM模型,同时,采用多尺度特征组提取和自协方差编码方法结合的方法编码序列特征,经过实验证明该预测模型比其他的方法能更加精确地预测蛋白质的相互作用。2)针对
4、蛋白质二级结构预测中人工提取特征不精确和成本高的问题,提出了一种基于卷积神经网络的蛋白质二级结构预测方法。首先,利用蛋白质中的20种氨基酸来量化待预测的蛋白质原始序列,得到输入的二维矩阵。然后,利用一维卷积对量化后的二维矩阵进行卷积提取蛋白质序列的特征,其中卷积神经网络预测模型包含五层卷积层和三层全连接层的网络结构,同时为了减少数据的过拟合,在全连接层引入了Dropout的方法。根据具体的预测问题,通过理论分析和多次实验验证该预测模型在蛋白质二级结构预测时具有预测优势。3)针对卷积神经网络在提取特征时的非时序问题,采用了循环神经网络中
5、的双向长短记忆神经网络(BLSTM)结构作为预测模型,来预测蛋白质的二级结构。预测模型包含一层BLSTM,两层全连接层和一层softmax分类层,首先利用BLSTM中隐藏层的正向递归和反向递归模块,来获取蛋白质序列中的上下文的特征信息,且其网络结构中特殊的记忆单元能记忆序列中长距离的氨基酸间的相互关系,从而增强了提取的序列特征的有效性。实验结果证明其预测的效果是比较好的。关键词:深度学习;深度玻尔兹曼机;卷积神经网络;蛋白质二级结构;蛋白质相互作用IAbstractAbstractAsaclassicapplicationofcomp
6、uterscienceandtechnology,Bioinformaticsthattrytosolvethebiologicalissueshasbeenwidelydevelopedwiththeimplementofthehumangenomeprojectandthedevelopmentofbiologicalscience.Generally,thebiologicalinformationandbiologicalgeneticinformationisfirstlycollected,storedandanalyse
7、sedbycomputer,andthentheobtaineddatacanbeutilizedtoimprovethequalityofdrugdevelopment.Followingthestudyofgenomicsandtranscriptome,proteomicshasbecomeafamousresearchsubjectofbioinformaticssystem.WiththedevelopmentofproteinsequencingtechnologiesandX-raycrystaldiffractiont
8、echnology,wecaneasilycollectlargeamountofproteinsequenceandstructuredata.Togetherwiththeproteinfunctionanalysi
此文档下载收益归作者所有