生物信息学 第十一章利用蛋白质序列的预测方法

生物信息学 第十一章利用蛋白质序列的预测方法

ID:14549533

大小:149.00 KB

页数:24页

时间:2018-07-29

生物信息学 第十一章利用蛋白质序列的预测方法_第1页
生物信息学 第十一章利用蛋白质序列的预测方法_第2页
生物信息学 第十一章利用蛋白质序列的预测方法_第3页
生物信息学 第十一章利用蛋白质序列的预测方法_第4页
生物信息学 第十一章利用蛋白质序列的预测方法_第5页
资源描述:

《生物信息学 第十一章利用蛋白质序列的预测方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、11利用蛋白质序列的预测方法AndreasD.BaxevanisGenomeTechnologyBranchNationalHumanGenomeResearchInstituteNationalInstitutesofHealthBethesda.MrylandDavidLandsmanNationalCenterfroBiotechnologyInformaitonComputationalBiologyBranchNationalLibraryofMedicineNationalInstituteofHealthBethsda.Mar

2、yland本书对数据库的讨论及前几章中提供的信息都说明,当前各种公共数据库中的序列信息的数量正急剧增加。与我们已知的核酸序列一样,所有蛋白质序列,无论是直接测得还是由核酸序列中的开放阅读框转换而来,都包含有决定其结构功能的内在信息。可惜用实验方法获取这些信息的速度远远赶不上单纯序列数据产生的速度。象圆二色谱、旋光色散、X光晶体衍射和核磁共振都是确定结构特征的强有力技术,但它们的实现需要大量时间,并对技术和技巧都有很高要求。对比蛋白质序列和结构数据库的容量可知两类信息之间差距已十分明显,到写这本书时,有428,814个条目在冗余的蛋白质序列库

3、(nr),而PDB库中仅有5017个条目1。为缩小这一差距所做的尝试都围绕于“预测的方法”。这些序列条目能在缺少生物化学数据的情况下提供关于蛋白质性质的见解。本章的焦点是从序列本身中获取生物学发现的计算技术,与前几章中的技术不同之处于这些方法大多并不依赖于双序列或多序列的比对。核酸序列所包含的四种核苷酸在化学上性质相似(但不相同),与之不同的是,构成蛋白质的20种氨基酸残基由于化学构造上差别很大,因而在结构和功能上存在更大多样性。任一残基对蛋白质的整体物理性质都会产生影响,因为这些残基本身就是酸性或者碱性的。因而在蛋白质结构域中每种残基对构

4、成不同类型结构都存在偏向。当然,这些属性就是生物化学的核心原理之一“序列决定构象”的基础(Anfinsen等,1961)。在谈及这种或那种预测技术之前要预先说明的是,无论用哪种方法,这些结果都是预测。不同的方法,采用了不同的算法,可能产生相同或不同的结果。但有一点很重要:弄清楚某种方法的原理,而不是仅把算法当作一个“黑箱”。因为一种方法可能对特定实例很合适,而对另一个则完全不对。虽然如此,存在一种强大合作的潜力:正确应用这些预测技术,参照以主要的生化数据,就能提供有关蛋白质结构与功能的有价值信息。1.GenBank发布编号100.0,199

5、7年4月15日;PDB为1997年3月13日之数据。基于组成的蛋白质辨识人们早已熟知了20种氨基酸中每一个的物理和化学性质,并以此开发了许多有用的计算工具用于确认未知蛋白(或反过来分析已知蛋白)。其中的大部分可通过在Geneva大学医院和Geneva大学的ExPASy服务(Appel等,1994)来获得。ExPASy工具的应用有两个焦点:既分析和确认由二维凝胶电泳分离得到的未知蛋白,也预测已知蛋白的基本性质。这些工具利用了SWISS-PROT数据库中的有效注解来进行预测。既然这类计算对电泳分析有用,它们也能在其它实验领域中有所帮助,尤其是对

6、色谱和沉降分析。在这里及以下内容中,包含在ExPASy中的工具都会标明,但由此而来的讨论也包括了许多由其他小组开发提供的有用程序。本章末列出了与本章中所提及的工具有关的因特网资源。AACompIdent与AACompSim(ExPASy)与把氨基酸序列在SWISS-PROT库中搜索不同,AACompIdent工具利用未知蛋白的氨基酸组成去确认具有相同组成的已知蛋白(Wilkins等,1996)。对于输入部分,该程序需要蛋白质的氨基酸组成,等电点pI和分子量(如果知道),正确的物种分类及特别的关键词。此外,用户还需在六种氨基酸“组合”中作出选

7、择,这影响到分析如何进行。例如,某种“组合”会把残基Asp/Asn(D/N)和Gln/Glu(Q/E)组合成Asx(B)和Glx(Z);或者某种残基会在分析中被完全除去。对数据库中的每一个蛋白序列,算法会对其氨基酸组成与所查询的氨基酸组成的差异打分。由电子邮件返回的结果被组织成三级列表:第一张列表中的蛋白都基于特定的物种分类而不考虑pI和分子量;第二张列表包含了不考虑物种分类、pI和分子量的全体蛋白;第三张列表中的蛋白不但基于特定物种分类,并且将pI和分子量也考虑在内。虽然计算所得结果各不相同,但零分表明了该序列与提出的组成完全相符。AAC

8、ompIdent的一个变种,AACompSim提供类似的分析,但与前者以实验所得的氨基酸组成为依据进行搜索不同,后者使用SWISS-PROT中的序列为依据(Wilkins等,19

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。