欢迎来到天天文库
浏览记录
ID:35181993
大小:4.23 MB
页数:70页
时间:2019-03-21
《基于机器学习的药物蛋白虚拟筛选方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、工学硕士学位论文基于机器学习的药物蛋白虚拟筛选方法研究王梦禹哈尔滨理工大学2016年3月国内图书分类号:TP391.4工学硕士学位论文基于机器学习的药物蛋白虚拟筛选方法研究硕士研究生:王梦禹导师:乔佩利申请学位级别:工学硕士学科、专业:软件工程所在单位:计算机科学与技术学院答辩日期:2016年3月授予学位单位:哈尔滨理工大学ClassifiedIndex:TP391.4DissertationfortheMasterDegreeinEngineeringResearchontheVirtualScreeningofDrugProte
2、inbasedontheMachineLearningCandidate:WangMengYuSupervisor:QiaoPeiLiAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:SoftwareEngineeringDateofOralExamination:March,2016University:HarbinUniversityofScienceandTechnology哈尔滨理工大学硕±学位论文原创性声明本人郑重声明:此处所提交的硕±学位论文《基于机器学习的药
3、物虽白虚拟筛选方法研究》,是本人在导师指导下,在哈尔滨理工大学攻读硕±学位期间独立进行研究工作所取得的成果。据本人所知,论文中除己注明部分外不包含他人己发表或撰写过的研巧成果。对本文研巧工作做出贡献的个人和集体,均己在文中明确方式注明。本声明的法律结果将完全由本人承担。矣。作者签名:是专曰期:V,/矣年巧文日哈尔滨理工大学硕i学位论文使用授权书《基于机器学习的药物蛋白虚拟筛选方法研究》系本人在哈尔滨理工大学攻读硕±学位期间在导师指导下完成的硕±学位论文。本论文的研究成果归哈。尔滨理工大学所有,本
4、论文的研究内容不得其它单位的名义发表本人赛全了解哈尔滨理工大学关于保存、使用学位论文的规定,同意学校保留并向有关部口提交论文和电子版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可W采用影印、缩印或其他复制手段保存论文,可公布论文的全部或部分内容。本学位论文属于□。保密,在年解密后适用授权书不保密也。(请在上相应方框内打V)3之^:日作者签名:日期年月?:日导师签名:曰期^。/辟巧如焉(尚务、基于机器学习的药物蛋白虚拟筛选方法研究摘要20世纪中后期,伴随计算机技术的迅速发展,新药物的
5、研发进入了一个新的阶段。在计算机辅助药物设计的众多方法中,基于分子对接的虚拟筛选由于其较好的普适性,已被大多数机构和制药公司所认可,但同时,这种策略的准确度很大程度上依赖于打分函数的精度。从目前来看,对于打分函数的研究还受理论和方法的限制,因此目前仍没有一种完全正确的方法。另一方面,虚拟筛选的过程中会用到大量的实验室晶体结构,当所要研究的靶点结构不足以满足虚拟筛选所需的数量时,将不得不加入一些可能包含错误结果的对接取向或者同源建模数据,从而降低最终筛选结果的准确率。近年来,由于机器学习技术的不断发展,应用机器学习相关理论来提高虚拟筛
6、选效果已经成为研究的重点,虽然到目前机器学习算法还无法使计算机具备和人类一样强大的学习能力,但针对大量特定学习任务的算法的提出,使计算机具备了从大量数据中提取特征、发现隐含规律的能力,因此机器学习理论作为一种强力辅助手段,已被引入到计算机辅助药物设计中。基于这个背景,本文提出一种结合机器学习的策略改进基于分子对接的虚拟筛选流程,采用蛋白质-配体交互指纹(InteractionFingerprint,IFP)来编码蛋白质和其配体之间的交互作用来代替打分函数,采用集成学习的手段降低因混入错误对接结果对最终筛选结果的影响。本文首先介绍了虚
7、拟筛选的概念和方法,以及国内外机器学习和虚拟筛选相结合所取得的成果。然后介绍了基于分子对接的虚拟筛选流程和蛋白质-配体交互指纹的概念和发展。为了论证所提出方法的有效性,本文选取SRC和CathepsinK这两种目前制药领域的热点药物靶点,并以SC-PDB数据库和PDB数据库中的相关数据为基础进行向量化处理,随后采用BP神经网络来预测这两种靶蛋白的蛋白质-配体交互指纹。同时,本文也在朴素BP神经网络的基础上,引入遗传算法和模拟退火算法来解决BP神经网络在训练数据中收敛速度过慢和易陷入局部最优值的问题。在虚拟筛选阶段,本文将采用机器学习
8、算法生成的IFP作为分类算法的输入,并模拟实际情况加入部分对接取向。为了解决因训练集质量不高而导致虚拟筛选效果较低的问题,本文在算法层面引入集成学习思想,优化了本文所提出的新的虚拟筛选流程。在实验构建与分析-I-部分,采用PDB数据库
此文档下载收益归作者所有