医学ppt课件大全基于统计方法的蛋白质结构和功能预测

医学ppt课件大全基于统计方法的蛋白质结构和功能预测

ID:20085898

大小:3.71 MB

页数:43页

时间:2018-10-09

医学ppt课件大全基于统计方法的蛋白质结构和功能预测_第1页
医学ppt课件大全基于统计方法的蛋白质结构和功能预测_第2页
医学ppt课件大全基于统计方法的蛋白质结构和功能预测_第3页
医学ppt课件大全基于统计方法的蛋白质结构和功能预测_第4页
医学ppt课件大全基于统计方法的蛋白质结构和功能预测_第5页
资源描述:

《医学ppt课件大全基于统计方法的蛋白质结构和功能预测》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于统计方法的蛋白质结构和功能预测博士生:刘滨导师:王轩教授2008-06主要内容课题来源及研究的目的和意义国内外在该方向的研究现状及分析前期的理论研究与试验论证工作的结果学位论文的主要研究内容、实施方案及其可行性论证论文进度安排,预期达到的目标为完成课题已具备和所需的条件、外协计划及经费预计研究过程中可能遇到的困难、问题,以及解决的途径课题来源及研究的目的和意义课题来源基于自然语言处理技术的蛋白质相互作用预测方法研究--国家自然科学基金面上项目(60673019)问答式信息检索的理论与方法研究--国家自然科学基金重点项目(60435020

2、)课题来源及研究的目的和意义研究的目的和意义远程同源性和折叠检测在生物信息学中,蛋白质同源性检测是重点研究的课题之一。研究者越来越依赖于通过同源性把蛋白质按照结构和功能进行分类。大多数的方法能够检测出具有高度序列相似性的同源性,然而准确检测低序列相似性的同源性即远程同源性检测仍是一个具有挑战性的问题。蛋白质相互作用位点预测蛋白质相互作用位点是将相互作用数据直接应用与药物开发所必须的信息。采用实验的方法确定蛋白质相互作用位点费时费力。此外在实验的过程中还会遇到一些目前无法解决的问题,因此采用理论计算方法来预测蛋白质相互作用位点有重要的现实意义

3、。主要内容课题来源及研究的目的和意义国内外在该方向的研究现状及分析前期的理论研究与试验论证工作的结果学位论文的主要研究内容、实施方案及其可行性论证论文进度安排,预期达到的目标为完成课题已具备和所需的条件、外协计划及经费预计研究过程中可能遇到的困难、问题,以及解决的途径国内外在该方向的研究现状及分析蛋白质远程同源性和折叠检测动态规划算法:Smith-Waterman。启发式算法:BLAST和FASTA。产生式模型:HMM判别式模型:SVM计算核函数方法:1.直接计算的核函数(LA,SW-PSSM)2.基于特征空间的核函数(SVM-Fisher

4、,SVM-pairwise,SVM-n-peptide,Mismatch,Spectrum等)国内外在该方向的研究现状及分析蛋白质相互作用位点预测氨基酸物理化学性质:疏水性,极性残基的进化保守性:Conservation序列信息:ET三维结构特征:ASA,3D-motifs机器学习方法:SVM,NN,CRF主要内容课题来源及研究的目的和意义国内外在该方向的研究现状及分析前期的理论研究与试验论证工作的结果学位论文的主要研究内容、实施方案及其可行性论证论文进度安排,预期达到的目标为完成课题已具备和所需的条件、外协计划及经费预计研究过程中可能遇到

5、的困难、问题,以及解决的途径前期的理论研究与试验论证工作的结果主要介绍下面两个问题:远程同源性和折叠检测问题;蛋白质相互作用位点预测问题。远程同源性和折叠检测问题生成蛋白质序列频率谱首先计算氨基酸i的伪计数值其中fi是给定氨基酸i的观测频率,pj是给定氨基酸的背景频率,qij是氨基酸i和氨基酸j之间所对应的分数矩阵的分数。氨基酸i的目标频率用如下公式计算。其中β是自由参数,使用PSI-BLAST的默认值10。α是多序列比对的某一列中出现的氨基酸种类数量减1。远程同源性和折叠检测问题蛋白质序列频率谱转化为Top-n-grams对于每一个氨基酸

6、频率谱,20个标准氨基酸按照其频率进行降序排列,然后频率最大的n个氨基酸按照其频率连接为一个子串。我们称该子串为Top-n-gram。每一个Top-n-gram通过n个氨基酸在子串中的不同位置来区别它们不同的频率。该过程重复执行,直到蛋白质序列频率谱中的所有氨基酸频率谱转化为Top-n-grams。即一个蛋白质频率谱转化为k个Top-n-grams,其中k为蛋白质序列的长度。远程同源性和折叠检测问题创建SVM分类器基于Top-n-grams方法的特征向量维数为20^n。在本文中,我们研究了Top-1-grams,Top-2-grams和To

7、p-3-grams,他们特征向量的维数分别为20,400和8000。训练集中的蛋白质通过计算每个Top-n-gram出现次数转化为固定长度的向量。之后这些向量用来训练特定类别的分类器。测试集中的蛋白质向量化方法和训练集中的蛋白质向量化方法一样。测试向量输入特定的分类器进行分类。SVM赋给每个测试集中的蛋白质一个表示正例可能性的分数。该分数值大于0的测试样本被预测为正例反之为反例。远程同源性和折叠检测问题潜在语义分析根据训练集构造一个维数为M×N的词-文档矩阵A=[aij],其中aij为词i在文档j中的权重,M为特征词总数,N为文档总数。设K

8、为矩阵A的秩,则通过奇异值分解,矩阵A可以被分成三个矩阵:其中矩阵U是左奇异矩阵,V是右奇异矩阵,S是对角矩阵,其对角元素是矩阵A的奇异值,且满足s1≥s2≥…sK>0。在实际中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。