利用序列信息预测DNA结合蛋白的深度学习算法研究

利用序列信息预测DNA结合蛋白的深度学习算法研究

ID:42482400

大小:1.21 MB

页数:58页

时间:2019-09-15

利用序列信息预测DNA结合蛋白的深度学习算法研究_第1页
利用序列信息预测DNA结合蛋白的深度学习算法研究_第2页
利用序列信息预测DNA结合蛋白的深度学习算法研究_第3页
利用序列信息预测DNA结合蛋白的深度学习算法研究_第4页
利用序列信息预测DNA结合蛋白的深度学习算法研究_第5页
资源描述:

《利用序列信息预测DNA结合蛋白的深度学习算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、利用序列信息预测DNA结合蛋白的深度学习算法研究OnthePredictionofDNA-BindingProteinsOnlyFromPrimarySequences:ADeepLearningApproach学科专业:计算机科学与技术研究生:曲宇辉指导教师:宫秀军副教授天津大学计算机科学与技术学院二零一七年十一月万方数据万方数据摘要DNA结合蛋白通过与DNA相结合实现了转录、复制、选择性剪贴和甲基化等多种功能,从而对生物体的调控机制发挥着不可替代的作用,根据氨基酸序列预测其功能逐渐成为生物信息学领域一项重要任务。随着各类蛋白质数据库的构建,越来越多研究人员开始从

2、海量生物数据中挖掘有用信息,探索生命的意义。近年来,多种被用来预测DNA结合蛋白功能的统计学以及机器学习方法被提出并不断改进。这些方法依赖于根据蛋白质的结构以及功能特性构建的特征集合,而且在大数据集上不能取得满意的预测效果。由于构造合适的特征是一个困难的任务,因此本文提出了一种卷积神经网络与长短记忆依赖网络相结合的深度学习模型根据氨基酸序列预测DNA结合蛋白。模型使用两层卷积神经网络搜索序列功能域,通过长短记忆依赖网络保留序列中的氨基酸之间的位置依赖关系,通过自动学习特征,避免了繁琐的人工提取环节。本文介绍了几种具有代表性的氨基酸序列特征提取方法,并和传统机器学习分

3、类算法结合进行对比试验。根据模型在平衡数据集,非平衡数据集,低冗余数据集上的实验结果,证明了深度学习模型在大规模数据集预测任务中具有明显的优势,和传统的机器学习分类算法相比,我们的模型具有更好的DNA结合蛋白预测能力。根据实验证明,CNN与LSTM结合的深度学习模型具有良好的可靠性与泛化能力,在根据原始氨基酸序列进行DNA结合蛋白预测问题上拥有显著的效果。因此该模型是一个强大的DNA结合蛋白预测工具,同时在生物信息领域具有广泛的应用前景。关键词:DNA结合蛋白,卷积神经网络,长短记忆依赖网络,深度学习I万方数据ABSTRACTTheinteractionbetwee

4、nDNA-bindingproteinandDNArealizesmanyfunctionssuchastranscription,replication,selectivescissionandmethylation,andthusplaysanirreplaceableroleintheregulationoforganisms.ThepredictionofproteinfunctionbasedonaminoacidsequencehasgraduallybecomeaImportanttask.Withtheconstructionofvariouskin

5、dsofproteindatabases,moreandmoreresearchersbegantodigusefulinformationfrommassivebiologicaldatatoexplorethemeaningoflife.Inrecentyears,avarietyofstatisticsandmachinelearningmethodshavebeenproposedforpredictingthefunctionofDNA-bindingproteins.Thesemethodsrelyonfeaturesetsconstructedfrom

6、proteinstructuresandfunctionalproperties,anddonotachievesatisfactorypredictiveresultsonlargedatasets.Sinceitisadifficulttasktoconstructsuitablefeatures,thispaperproposesadeeplearningmodelthatcombinesconvolutionalneuralnetworkswithlongandshortmemory-dependentnetworkstopredictDNA-binding

7、proteinsbasedonaminoacidsequences.Themodelusesatwo-layerconvolutionalneuralnetworktosearchforsequencedomainsandretainsthepositionaldependenceofaminoacidsinthesequencethroughLSTM,andavoidstediousmanualextractionbyautomaticallylearningfeatures.Thisarticledescribesseveralrepresentativem

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。