用生物统计方法预测蛋白质相互作用

用生物统计方法预测蛋白质相互作用

ID:33305122

大小:1.72 MB

页数:65页

时间:2019-02-24

用生物统计方法预测蛋白质相互作用_第1页
用生物统计方法预测蛋白质相互作用_第2页
用生物统计方法预测蛋白质相互作用_第3页
用生物统计方法预测蛋白质相互作用_第4页
用生物统计方法预测蛋白质相互作用_第5页
资源描述:

《用生物统计方法预测蛋白质相互作用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、⑧申请同济大学理学硕士学位论文用生物统计方法预测蛋白质相互作用(国家自然科学基金项目编号:20675057)培养单位:一级学科:二级学科:研究生:指导教师:化学系化学分析化学胡佳李通化教授二oo七年三月摘要蛋白质是生命活动的主要物质承担者,一切生命活动都离不开蛋白质的参与。预测蛋白质的功能和作用机理已经成为当今生命科学界非常热门的课题。许多蛋白质通过与其他蛋白质的相互作用来表达它们的生物学功能,而且蛋白质之间的相互作用在细胞生物学水平上起着十分关键的作用:首先,遗传上的相互功能常常与相应的蛋白质问相互

2、作用有关;其次,在信号传递途径中也需要蛋白质的相互作用;再次,蛋白酶.蛋白质底物问的相互作用与生物的催化反应密切相关:最后,蛋白质的相互作用对于整合如RNA多聚酶或对多成分酶促反应也有至关重要的影响。因此研究蛋白质的相互作用,识别与特定蛋白质相互作用的蛋白质,对于了解蛋白质的功能有着非常重要的意义。本文首先从DIP数据库中下载得到蛋白质相互作用的数据,并从中筛选出实验所需的正集数据,再结合MIPS数据库中提供的亚细胞定位的分类信息构建负集。我们基于蛋白质的一级结构信息,先采用文献中的CTD编码方法对蛋

3、白质序列进行编码,提取出序列中蕴含的统计特征,用支持向量机(SVM)算法进行建模和预报,平均准确率为79%以上,再采用不同的策略进行变量选择,优化编码后用5-fold交叉验证进行检验,准确率达到了82.43%,比文献的交叉验证结果(76.9%)高出了5%以上。接着,本文采用了另外四种编码方法,从不同的角度对序列进行编码,提取变量,再结合SVM进行预报,结果都比文献值要好。其中预报结果最好的氨基酸双编码的5.fold交叉验证的准确率达到了85.91%,高出了文献值9个百分点。值得一提的是,在另外的这四种

4、编码方法中,氨基酸单编码、氨基酸双编码和伪氨基酸编码以前只用在其他的生物识别问题上。Gauss函数分布编码方法是我们提出的新型编码方法,这种编码方法合理的利用了更多有效信息,预报的效果与氨基酸双编码的结果相近,准确率也达到了85%以上。最后,本文将共识模型引入蛋白质相互作用的预测,选取不同的编码方法建立多个成员子模型,再构建双层结构的SVM融合网络,充分发挥不同编码思想的优点,利用不同模型之间的优势互补关系,从而迸一步提高了预测性能,准确率最高达到了86.80%,这是目前据我们所知国际上达到的最佳分类

5、效果。本文主要分为四个部分:摘要第一部分系统地介绍蛋白质相互作用的原理、相关的数据库以及目前鉴别蛋白质相互作用的主要的研究方法。第二部分介绍了本文的实验数据来源、特点和实验数据的分析、预处理以及结果的评价方法。第三部分首先简单介绍支持向量机(sVM)的相关知识,再提出了基于蛋白质序列的五种不同的编码方法,分别是CTD编码、氨基酸单编码、氨基酸双编码、Gauss函数分布编码方法和伪氨基酸编码。并结合SVM进行建模和预报,进一步优化改进这些编码方法,分析预报结果以及编码思想之间的联系。第四部分提出了双层S

6、VM的概念。利用不同的特征和分类器之间的互补,形成两层的SVM融合网络模型,将多个子分类器进行组合,再用SVM进行预测。在本文的末尾,我们对预测工作进行了总结,对工作中的不足之处进行了探讨,并提出了一些改进的设想。关键词:生物统计学,蛋白质相互作用的预测,蛋白质相互作用数据库,支持向量机,融合刚络,双层SVMHAbsttactABSTRACTProteinsaretheprimarycomponenmofthecellularmachineryanditisimpossibleforbodytowor

7、kwithoutproteins.Nowadays,thepredictionoffunctionandprineipleofproteinsisoneofthemostimportanttopicsintheareaoflifesciences.Manyproteinsmediatetheirbiologicalfunctionthroughproteininteractions,andproteininteractionsarecrucialformanyaspectsofcellularbiol

8、ogy.Firstly,geneticinteractionsoftencorrelatewithphysicalinteractionsbetweenthecorrespondinggeneproducts.Secondly,proteininteractionsarerequiredtotetherthecomponentsofsignal-transductionpathwaysphysically.Thirdly,enzyme—proteinsu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。