欢迎来到天天文库
浏览记录
ID:30047995
大小:1.37 MB
页数:74页
时间:2018-12-26
《硕士毕业论文-蛋白质生物功能的机器学习方法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、上海大学硕士学位论文2010年5月中图分类号:单位代号:10280密级:学号:07720172硕士学位论文SHANGHAIUNIVERSITYMASTERDISSERTATION题目蛋白质生物功能的机器学习方法研究作者朱昱倍学科专业物理化学导师陆文聪教授完成日期二零壹零年五月66上海大学硕士学位论文2010年5月ADissertationSubmittedtoShanghaiUniversityfortheMaster’sDegreeinScienceUsingMachineLearningMethodsInInvesigationofProtein’sBiologicalFunctionsM
2、.D.Candidate:ZhuYubeiSupervisor:Prof.LuWencongMajor:PhysicalChemistryScienceCollege,ShanghaiUniversityMay,201066上海大学硕士学位论文2010年5月摘要近些年来,随着信息技术和生物检测手段的不断发展,生命科学的数据资源急剧膨胀。实验工作者在产生大量数据的同时,也对理论研究者提出了更多的难题。利用机器学习这一方法来分析这些数据,我们可以从中找出隐含的规律和模式,从而进一步加深对事物的认识。本文就是采取这一研究方法,对蛋白质的生物功能进行建模和预报。在本文的工作中,我们使用了机器学习方法来
3、对蛋白质和小分子的相互作用、蛋白质糖基化位点的识别进行建模和预报。另外我们还探讨了一系蛋白质列生物功能在线预报系统的建设和优化。本文的主体工作分为三个部分:1.用集成学习算法对蛋白质和小分子的相互作用进行研究。我们针对代谢途径下的酶和底物之间的相关作用,建立了相互作用预报模型。通过对数据集的变量筛选和降维的评价,我们保留了原有的变量集合。在后续的建模过程中分别用AdaBoost,Bagging,SVM,KNN,决策树对酶和底物进行建模。10组交叉验证和独力测试集的结构显示,集成学习方法AdaBoost,Bagging的分类能力最好,都达到了71%以上。而我们接着又把不同的分类器组合集成后发现,
4、前2个性能最好的集成学习算法和KNN组合后的体系具有最好的推广能力,其独立测试集中正样本的正确率又在原先最好的结果下提高了近4%,而其总体正确率也达到了84.6%。结果证明,多重集成学习算法可以用来研究蛋白质和小分子相互作用,所得到的模型有很好的预测性能。此外,我们根据所建立的酶和底物相互作用的预测模型,同时开发了相应的在线预报系统。2.用CFS-Wrapper筛选变量法结合AdaBoost集成方法对蛋白质O端糖基化位点进行研究。在许多的生化过程中都需要有O-端糖链的参与。然而糖基化是一个复杂的过程,迄今为止还未得出一个固定的模式。我们对收集到的糖基化和非糖基化肽段,并用肽段中残基的物化参数,
5、以AAIndex库中的数据进行表征。66上海大学硕士学位论文2010年5月分别尝试了CFS方法以及PCA主成分变换进行变量筛选。在进行初步的变量筛选后,分别用SVM、KNN、C4.5、AdaBoost、Bagging对不同的变量筛选方法进行多组交叉验证和独立测试集的评价。接着确定以AdaBoost建模和CFS变量筛选结果为基础,做进一步的Wrapper筛选。最终筛选出23个变量的子集。其十组交叉验证正确率在88.1%、独立测试集正确率在87.5%。根据该模型,我们开发了蛋白质糖基化点位的在线预报系统。1.利用Java网页技术、weka软件、第三方开发包等工具开发出了一系列蛋白质生物功能在线预报
6、系统。我们分别从设计原理,实现方法以及优化手段等提出了自己的看法和见解。这些在线预报系统涉及到亚细胞定位、翻译后修饰、蛋白质相互作用、酶和底物作用等方面的内容。其中采取MVC的设计模式简化了构建在线预报服务的实现工作,提高了工作效率。并且在诸如weka、httpclient、多线程等技术的使用下使我们的预报系统具有更好的用户体验。关键词:蛋白质生物功能、机器学习,集成学习,组合分类器,酶和底物,O端糖基化,AdaBoost,CFS,在线预报服务器66上海大学硕士学位论文2010年5月AbstractInrecentyears,dataresourcesofbiologyaregrowingra
7、pidlyforthedevelopmentsinITanddetectiontechnology.Whentheexperimentalscientistsgettheirresearchdata,theyalsocreatemanyproblemstothetheoreticalscientists.Usingmachinelearningmethodstoexploreandprocesst
此文档下载收益归作者所有