欢迎来到天天文库
浏览记录
ID:34447853
大小:214.49 KB
页数:6页
时间:2019-03-06
《第六章 蛋白质的结构与功能预测new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、www.cab.zju.edu.cn/cab/xueyuanxiashubumen/nx/bioinplant.htm《生物信息学札记》樊龙江第六章蛋白质的结构与功能预测随着人类基因组全序列测定的完成,预示着基因组研究从结构基因组(StructuralGenomics)进入了功能基因组(FunctionalGenomics)研究时代。研究基因组功能当然首先要研究基因表达的模式。当前研究这一问题可以基于核酸技术,也可以基于蛋白质技术,即直接研究基因的表达产物。测定一个有机体的基因组所表达的全部蛋白质的设想是由Williams于1994年正式提出的,而“蛋白质组”(proteome)一词是Wilk
2、ins于1995年首次提出。蛋白质组是指由一个细胞或组织的基因组所表达的全部相应的蛋白质。蛋白质组与基因组相对应,均是一个整体概念,但是两者又有根本的不同:一个有机体只有一个确定的基因组,组成该有机体的所有不同细胞都共享有一个基因组;但是,基因组内各个基因表达的条件、时间和部位等不同,因而它们的表达产物(蛋白质)也随条件、时间和部位的不同而有所不同。因此,蛋白质组又是一个动态的概念。由于以上原因,再加上由于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表达规律更趋复杂,不再是经典的一个基因一个蛋白的对应关系,而是一个基因可以表达的蛋白质数目大于一。由此可见,蛋白质组研究是一项复杂而艰巨
3、的任务。蛋白质结构与功能的研究已有相当长的历史,由于其复杂性,对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。统计学方法曾被成功地应用于蛋白质二级结构预测中,如Chou和Fasman提出的经验参数法便是最突出的例子。该方法统计分析了各种氨基酸的二级结构分布特征,得出相应参数(Pа,Pβ和Pt)并用于预测。本章将简要介绍蛋白质结构与功能预测的生物信息学途径。第一节蛋白质功能预测一、根据序列预测功能的一般过程如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物——蛋白质的功能。蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(
4、transmenbranehelix)或是前导序列(leadersequence)。但是,总的来说,我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。有2条主要途径可以进行上述的比较分析:①比较未知蛋白序列与已知蛋白质序列的相似性;②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。图6.1给出了根据序列预测蛋白质功能的大致过程。由于涉及数条技术路线,所得出的分析结果并不会总是相一致。一般来说,数据库相似性搜索获得的结果最为可靠,而来自PROSITE的结果相对不可靠。119www.cab.zju.edu.cn/cab/xueyuan
5、xiashubumen/nx/bioinplant.htm《生物信息学札记》樊龙江是否未知蛋白质序列与已知功能的蛋白质相似(详见第2小节)确定跨膜螺旋、卷曲螺旋和前导序列(详见第3小节)未知序列是否包含保守序列模序(详见第4小节)查对PROSITE数据查对BLOCKS和库PRINTS数据库整理所有肯定的结果并核对一致性预测蛋白质功能图6.1根据序列预测蛋白质功能的技术路线二、通过比对数据库相似序列确定功能具有相似序列的蛋白质具有相似的功能。因此,最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索。具体的搜索方法可参见第三章,但应记住,一个显著的匹配应至少有25%的相同序列和超过80个氨基酸的
6、区段。已有不少种类的数据库搜索工具,它们或者搜索速度慢,但灵敏;或者快速,但不灵敏。快速搜索工具(如BLASTP)很容易发现匹配良好的序列,所以没有必要再运行更花时的工具(如FASTA、BLITZ);只有在诸如BLASTP不能发现显著的匹配序列时,这些工具才被使用。所以,一般的策略是首先进行BLAST检索,如果不能提供相关结果,运行FASTA;如果FASTA也不能得到有关蛋白质功能的线索,最后可选用完全根据Smith-Waterman算法设计的搜索程序,例如BLITZ(www.ebi.ac.uk/searches/blitz.html)。BLITZ不做近似估计(BLAST和FASTA根据Smi
7、th-Waterman算法做近似估计),所以很花时,但非常灵敏。通常诸如BLITZ的程序能够发现超过几百个残基但序列相同比率低于20~25%的匹配,这些匹配可能达到显著,但会被那些应用近似估计的程序错过。还应注意计分矩阵(scoringmatrix)的重要性。选用不同的计分矩阵有不少重要原因:首先,选用的矩阵必须与匹配水平相一致,例如,PAM250应用于远距离匹配(<25%相同比率),PAM40应
此文档下载收益归作者所有