生物信息学-序列特征分析

生物信息学-序列特征分析

ID:17394151

大小:1.86 MB

页数:87页

时间:2018-08-30

生物信息学-序列特征分析_第1页
生物信息学-序列特征分析_第2页
生物信息学-序列特征分析_第3页
生物信息学-序列特征分析_第4页
生物信息学-序列特征分析_第5页
资源描述:

《生物信息学-序列特征分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第四章序列特征分析AnalysisofSequenceCharacterristics天津医科大学王兆月第一节引言一、基因结构Section1Introduction基因的概念是随着遗传学、分子生物学、生物化学等领域的发展不断完善的。从分子生物学角度来看,基因是负载特定生物遗传信息的DNA分子片段,在一定的条件下能够表达这种遗传信息,产生特定的生理功能。原核生物基因结构:一个完整的原核基因结构是从基因的5'端启动子区域开始,到3'端终止区域结束。基因的转录开始位置由转录起始位点确定,转录过程直至遇到转录终止位点结束,转录的内

2、容包括5'端非翻译区、开放阅读框及3'端非翻译区。基因翻译的准确起止位置由起始密码子和终止密码子决定,翻译的对象即为介于这两者之间的开放阅读框ORF。操纵子模型结构原核生物大多数基因表达调控是通过操纵子机制实现的。所谓操纵子通常由调节基因、启动子、操纵基因以及2个以上的编码序列(结构基因)在原核生物基因组中成簇串联组成。其中结构基因的表达受到操纵基因的调控。调节基因能产生作用于操纵基因的阻遏物(一种蛋白质),操纵基因靠近它所控制的结构基因,阻遏物与操纵基因的结合能阻止结构基因的转录。真核生物基因结构:一个完整的真核生物基因,

3、不但包括编码区域,还包括5'端和3'端两侧长度不等的特异性序列,虽然这些序列不编码氨基酸,却在基因表达的过程中起着重要的作用。所以,严格的“基因”这一术语的分子生物学定义是:产生一条多肽链或功能RNA所必须的全部核苷酸序列。二、蛋白质结构蛋白质是一种生物大分子,蛋白质中相邻的氨基酸通过肽键形成一条伸展的肽链,这条链称为蛋白质的一级结构,不同蛋白质其肽链的长度不同,肽链中不同氨基酸的组成和排列顺序也各不相同。肽链上的氨基酸残基形成局部的二级结构,各种二级结构在空间卷曲折叠形成特定的三维空间结构。有的蛋白质由多条肽链组成,每条肽

4、链称为亚基,亚基之间又有特定的空间关系,称为蛋白质的四级结构。蛋白质的一级结构蛋白质的一级结构决定二级结构蛋白质的二级结构决定三级结构蛋白质的二级结构H表示螺旋E表示折叠B表示β桥G表示3-螺旋I表示π螺旋T表示氢键转角S代表转向蛋白质空间结构蛋白质的生物学功能在很大程度上取决于蛋白质的空间结构,但蛋白质的空间结构又取决于蛋白质一级结构中的氨基酸组成和排列顺序,蛋白质结构构象多样性导致了不同的生物学功能。蛋白质分子只有处于它自己特定的空间结构情况下,才能获得它特定的生物活性,空间结构稍有破坏,就很可能会导致蛋白质生物活性的降

5、低甚至丧失,因为它们的特定的结构允许它们结合特定的配体分子。知道了基因密码,科学家们可以推演出组成某种蛋白质的氨基酸序列,却无法绘制蛋白质空间结构。因而,揭示人类每一种蛋白质的空间结构,已成为后基因组时代的制高点,这也是结构基因组学的基本任务。对DNA序列和蛋白质序列进行序列特征分析,能够使我们从分子层次上了解基因的结构特点,了解与基因表达调控相关的信息,了解DNA序列与蛋白质序列之间的编码,了解蛋白质序列与蛋白质空间结构之间的关系和规律,为进一步研究了解蛋白质功能与蛋白质结构之间的关系提供理论依据。第二节DNA序列特征分析

6、Section2AnalysisofDNASequenceCharacteristics分析DNA序列,除了进行序列比对之外,更重要的工作是从序列中找到基因及其表达调控信息。寻找基因的工作有两个:一是识别与基因相关的特殊序列信号,如启动子、起始密码子,通过信号识别大致确定基因所在的区域;二是预测基因的编码区域,或预测外显子所在的区域。在此基础上,结合两个方面的结果确定基因的位置和结构。绝大部分基因表达调控信息隐藏在基因序列的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。一、开放阅读框ORF—openread

7、ingframe开放阅读框指的是从5'端开始翻译起始密码子(ATG)到终止密码子(TTA、TAG、TGA)的蛋白质编码碱基序列。每个序列都有6个可能的开放阅读框,其中3个开始于第1、2、3个碱基位点并沿着给定序列的5'→3'的方向进行延伸,而另外的3个开始于第1、2、3个碱基位点但沿着互补序列的5'→3'的方向进行延伸。在开始这项工作之前,我们并不知道DNA双链中哪一条单链是编码链,也不知道准确的翻译起始点在何处,由于每条链都有3种可能的开发阅读框,2条链共计6种可能的开放读框,我们的目的就是从这6个可能的开放阅读框中找出一

8、个正确的开放阅读框。根据这个开放阅读框翻译得到的氨基酸序列才是真正表达的蛋白质产物。真核生物的开放阅读框真核生物的开放阅读框不仅含有编码蛋白的外显子(exon),而且还有内含子(intron),并且内含子将开放阅读框分割为若干个小片段。开放阅读框的长度变化范围非常大,因此真核生物的基因预测

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。