生物信息学基本概念集锦

生物信息学基本概念集锦

ID:30931370

大小:229.76 KB

页数:17页

时间:2019-01-04

生物信息学基本概念集锦_第1页
生物信息学基本概念集锦_第2页
生物信息学基本概念集锦_第3页
生物信息学基本概念集锦_第4页
生物信息学基本概念集锦_第5页
资源描述:

《生物信息学基本概念集锦》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、生物信息学基本概念集锦相似性和同源性如上所述,数据库搜索的基础是序列的相似性比对,而寻找同源序列则是数据库搜索的主要H的Z—。所谓同源序列,简单地说,是指从某一共同祖先经趋界进化而形成的不同序列。必须指出,相似性(similarity)和同源性(homology)是两个完全不同的概念。相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的简低。当相似程度爲于50%时,比较容易推测检测用列和目标序列可能是同源序列;而当相似性程度低丁•20%时,就难以确定或者根本无法确定其是否具有同源性。总之,不能把相似性和同源性混为一谈。所谓

2、“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应该避免使用。相似性概念的含义比较广泛,除了上面提到的两个序列之间相同碱基或残基所占比例外,在蛋口质序列比对中,冇时也指两个残基是否具冇相似的特性,如侧链基团的大小、电荷性、亲疏水性等。在序列比对屮经常需要使用的氨革酸残基相似性分数矩阵,也使用了相似性这-•概念。此外,相似性概念还常常用于蛋白质空间结构和折叠方式的比较。局部相似性和整体相似性序列比对的基本思想,是找出检测序列和目标序列的和似性。比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除(图3.1)。序列比对的授终实现,必须依赖于

3、某个数学模型。不同的模型,可以从不同角度反映序列的特性,如结构、功能、进化关系等。很难断定,一个模型一定比另一个模型好,也不能说某个比对结果一定正确或一定错误,而只能说它们从某个角度反映了序列的生物学特性。此外,模型参数的不同,也可能导致比对结果的不同。Query:179ENGFRYIFFRIYQTTTERPFIQKURPVAADGQLHTL3DL218F+IPRIYT+RF++AGTSbjct:181LESFKNIPLRIYTDDVRLHVHPETDFTDQRGRTKEEFGRFNGRIIDTCAQSGSFGTRIGA240图3.1序列比对,图屮“■”表示插入和

4、删除,用字符表示相同的残基,“+”表示相似残基。序列比对的数学模型大体町以分为两类,一类从全长序列出发,考虑序列的整体相似性,即整体比对;第二类考虑序列部分区域的相似性,即局部比对。局部相似性比对的生物学基础是蛋白质功能位点往往是由较短的序列片段组成的,这些部位的序列貝有相当大的保守性,尽管在序列的其它部位可能有插入、删除或突变。此时,局部相似性比对往往比整体比对具有更高的灵斂度,其结果更具生物学意义。区分这两类相似性和这两种不同的比对方法,对于正确选择比对方法是十分重要的。应该指出,在实际应川中,川幣体比对方法企图找出只有局部相似性的两个序列之间的关系,显然是徒

5、劳的;而用局部比对得到的结果也不能说明这两个序列的三维结构或折脊方式一定相同。BLAST和FastA等常用的数据库搜索程序均采用局部相似性比对的方法,具有较快的运行速度,而基于整体相似性比对的数据库搜索程序则需要超级计算机或专用计算机才能实现。数据席查询,是指对序列、结构以及各种二次数据库屮的注释信息进行关键词匹配查找。例如,对蛋白质序列数据库SwissProt输入关键词insulin(胰岛索),即町找出该数据库所有胰皿索或与胰必索冇关的序列条目(Entry)。数据库查询冇时也称数据库检索,它和互联网上通过搜索引擎(Searchengine)查找需要的信息是一个概

6、念。数据库搜索在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋口质序列数据库屮与检测序列具有一定程度相似性的序列。例如,给定一个胰岛索序列,通过数据库搜索,可以在蛋H质序列数据库SwissProt中找出与该检测序列(querysequence)*有一定相似性的序列。因此,在生物信息学中,数据库搜索是专门针对核酸和蛋口质序列数据库而言,其搜索的对象,不是数据库的注释信息,而是序列信息。多序列比对双序列比对是序列分析的基础。然而,对于构成基因家族的成纽的序列來说,我们要建立多个序列Z间的关系,这样才能揭示整个基因家族的特征。山于可以提高序

7、列比对的信噪比,多序列比对在阐明一组和关序列的重要生物学模式方面起着相当重要的作用。本章屮,我们将介绍一系列多序列比对的方法,从完全手动的方式到广泛应用的计算机程序,即所谓自动比对的方法。多序列比对冇时用來区分一组序列Z间的差异,但其主要用于描述一组序列Z间的相似性关系,以便対一个基因家族的特征有一个简明扼要的了解。与双序列比对一样,多序列比对的方法建立在某个数学或生物学模型之上。因此,正如我们不能对双序列比对的结果得出“正确或错误”的简单结论一样,多序列比对的结果也没冇绝对正确和绝对错误之分,而只能认为所使用的模型在多大程度上反映了序列之间的相似性关系以及它们的

8、生物学特征

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。