资源描述:
《基因组注释课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第5章基因组序列注释学习重点:1)基因注释的方法2)基因功能的研究方法基因组序列所包含的全部遗传信息是什么?基因组作为一个整体如何行使其功能?用什么方法寻找基因?用什么方法研究基因的功能?计算机分析+实验5.1寻找基因基因组序列查找基因。有两种常见的方法:计算机分析寻找与基因有关的序列。通过对DNA序列进行实验分析,看其能否表达基因产物。5.1.1根据基因结构特征搜寻基因基因不是核苷酸的随机排列而是具有明显特征:基因的编码区是可读框。可能的六种ORF1.根据开放读码框预测基因a.起始密码子ATG:第一个ATG
2、的确定则依据Kozak规则:Kozak规则是基于已知数据的统计结果,所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律。若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下:(1)第4位的偏好碱基为G;(2)ATG的5’端约15bp范围的侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。b.终止密码子终止密码子:TAA,TAG,TGAGC%=50%终止密码子每64bp出现一次;GC%>5
3、0%终止密码子每100-200bp出现一次;由于多数基因ORF均多于50个密码子,因此最可能的选择应该是ORF不少于100个密码子。细菌基因组的ORF阅读相对比较简单,错误的概率较少,但单纯的ORF扫描对高等真核生物DNA效果不佳。内含子使ORF扫描复杂化内含子的出现给计算机判读基因带来不少问题,对ORF扫描的基本程序的编写要考虑以下几个问题:1)密码子偏倚;2)外显子—内含子边界;3)上游调控序列。1)密码子偏爱性编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同。不同种属间使用同义密
4、码的频率有很大差异,如人类基因中,丙氨酸(Ale)密码子多为GCA,GCC或GCT,而GCG很少使用。特定种属有特征性的密码子偏爱,这些序列在编码区常常出现,非编码区只保持平均的碱基分布水平。上游外显子-内含子边界的共有序列在真正基因中发现的真实序列之间的关系。2)外显子-内含子边界外显子和内含子的边界有一些明显的特征如:内含子的5‘端或称供体位(donorsite)常见的顺序为5’-AG↓GTTAAGT-3’;3’端又称受体位(acceptorsite),多为5‘PyPyPyPyPyPyCAG-3’(“Py
5、”嘧啶核苷酸,T或C);3)上游控制顺序几乎所有基因(或操纵子)上游都有调控序列,它们可与DNA结合蛋白作用,控制基因表达。另外个别生物的基因组特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游都有CpG岛。大多数CpG岛都位于管家基因和大部分组织专一性表达基因的5’侧翼区以及基因的第一个外显子区。5.1.2同源基因查询通过已存入数据库中的基因序列与待查的基因组序列进行比较,从中查找可与之匹配的碱基序列及其比例,用于界定基因的方法称为同源查询。同源有如下几种情况:A.DNA序列某些片段完全相同;B.开放
6、读码框排列类似,如有等长外显子;C.开放读码框翻译成的氨基酸序列的相同;D.模拟多肽高级结构相似。当在氨基酸水平进行比较时,两个序列之间缺少同源性就更明显。同源性,一致性和相似性1)同源性(homology)基因系指起源于同一祖先但序列已经发生变异的基因成员。分布在不同物种间的同源基因又称直向同源基因。同一物种的同源基因则称共生同源基因(水平基因),水平基因由重复后趋异产生。基因同源性只有“是”和“非”的区别,无所谓百分比.2)一致性(identity):指同源DNA顺序的同一碱基位置的相同的碱基成员,或者蛋
7、白质的同一氨基酸位置的相同的氨基酸成员,可用百分比表示.3)相似性(similarity):指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员,它们之间的代换不影响蛋白质(或酶)的生物学功能。相似性与一致性249MFN-MAIPFGAGAYAQALNQQQAALMASVAQGG232ILTSLTLPFSAGAYAQALNQQQTTVIS--TSGS注:红色为一致性氨基酸,蓝色为可取代氨基酸,白色为趋异氨基酸.一致性氨基酸百分比为红色氨基
8、酸所占的比例,相似性氨基酸百分比为红色和蓝色氨基酸相加所占的比例.基因注释软件1)目前基因注释程序的编写主要依据两种信息内涵:1.signalterms(信号指令),如起始密码,终止密码,终止信号,剪接受体位与供体位序列,多聚嘧啶顺序,分支点等保守的顺序组成;2.contentterms(内容指令),如密码子使用偏好.对结构紧凑的小基因组上述注释软件效果不错,但对大基因组特别是超长基因的注释有很大困