资源描述:
《基因组分子进化与群体遗传学》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
-基因组的分子进化与群体遗传学本文首先从两个方面介绍基因组的分子进化:第一是基因组的图景,集中于塑造在各种各样的基因组特征中观察到的模式的进化过程,例如非编码DNA进化、基因的突变速率和重组速率、密码子选择和基因密度;第二是功能序列进化的概览。最后展望了群体遗传学的发展和应用前景。1非编码DNA的进化大部分真核基因组是非编码的,如果有区别的话,研究这种基因做什么应该引起可观的兴趣。物种之间或内部的进化对比为最简单的假设提供强有力的检验:非编码DNA正在随机地突变且受单独漂移的支配。Ludwig提供了这个领域的清晰概览[LudwigMZ.FunctionalevolutionofnoncodingDNA[J].CurrOpinGenetDev,2002,12(6):634-639.],并安排非编码序列面临大量的进化约束的证据,这种约束对过去观察到的变化产生影响。功能非编码DNA(ncDNA)由顺式作用元件如增强子、核心启动子、基体或脚手架附着区、绝缘子和沉默子组成。真核DNA包裹在核小体和其它结构蛋白组件周围,且被调控蛋白高度修饰。ncDNA调节核蛋白相互作用,为结合蛋白的物理定位和其它结合动力学充当一种模板。非编码区域的种间特异性的序列对比揭示了保守特征,它们中的许多可能是顺式作用元件。尽管选择约束的明显暗示,顺式元件的结构和序列随时间而变化,有时甚至在表达模式保守的情况下,更是戏剧性地如此。因此,基因表达的功能性保守在保证相关顺式调控因子的进化保护上是不充分的。一些研究表明,在染色质组织和转录调控相关的调控序列比蛋白编码序列占据许多更大的基因组序列片段。一个基因能够拥有许多增强子为了保证适当的活化以响应不同的时间的或空间的暗示。顺式作用元件与它们的核心启动子在序列特异性和定位特异性上一起进化以实现最好的可能的功能表现。1.1由功能约束保护大的ncDNA序列的比较研究表明,保守区域分散于快速分叉的片段,且甚至在300~450百万年的进化后,保守是明显的。高度保守区域的密度和块长度随进化距离的增加而减少。ncDNA上保守的点状模式的解释由分子进化的原则指导,该原则首先由Kimura提出[KimuraM.Theneutraltheoryofmolecularevolution[M].Cambridge:CambridgeUniversityPress,1983.],即“功能上不太重要的分子或部分分子不更重要的分子演变地更快。”换言之,序列特异性保守的ncDNA暗示了在这些序列上的功能约束和更慢速率的分子进化。1.2顺式元件上的功能和进化改变的保护存在许多广泛地分离的调控序列的许多例子,它们保留了表达特异性。功能性保守调控序列上的进化改变的研究必须起始于负责功能的序列的表征。许多进化假说被提出以解释顺式元件上的进化改变。1.3增强子进化的模型存在多个结合位点,每一个具有许多“模糊”.-- -,且间隔上的轻微改变也能影响增强子功能的可能性与许多独立的突变将有助于基因表达上的变化的观点相兼容。基因表达的时域-空域需求被认为是一种连续的特征,能随着影响转录因子的结合或相互作用的突变向前或向后移轻微动。1.3.1稳定选择的模型Kimura观察到一种定量特征的取代速率隶属于稳定选择[KimuraM.Possibilityofextensiveneutralevolutionunderstabilizingselectionwithspecialreferencetononrandomusageofsynonymouscodons[J].ProcNatlAcadSciUSA,1981,78:5773-5777.]。如果大量的隔离位点被涉及,在稳定选择下,每个突变的平均选择系数将很小。随后,这些弱的突变能被遗传漂移而不是选择控制,且取代速率相当高。应用于增强子进化,稳定选择能适应结合位点反转,而不扰乱初始的增强子功能。1.3.2补偿选择的模型一对在不同位点的进化,其是个别有害的,但还原了结合上的正常适合性,也许被称为补偿中性突变。Kimura解释[KimuraM.Theroleofcompensatoryneutralmutationsinmolecularevolution[J].JGenet,1985,64:7-19.],当基因被轻微地结合时,通过遗传漂移能容易地将这些突变固定于种群。Carter和Wagner模拟这种过程[CarterAJR,WagnerGP.Evolutionoffunctionallyconservedenhancerscanbeacceleratedinlargepopulations:apopulation-geneticmodel.ProcRSocLondSerB,2002,269:953-960.],因为其也许可应用于调控序列。他们发现,大的种群规模加速补偿进化,然而小的种群规模抑制这种形式的漂移发生。1.4新功能顺式元件的起源顺式调控元件如何通过先前存在的顺式元件的修饰和分散演化一个新的功能?三种假说被提出。第一,复制和DNA重排涉及全部或部分的存在的功能元件;第二,存在的功能元件的修饰,例如结合位点的获得或丧失,或为额外的转录因子获得结合位点;第三,存在元件的共选择和发展的功能的扩展。这三种假说坚持发育生物学和群体遗传学的被普遍接受的原则,它们这几先前存在的元件的进化修饰并允许一种新的基因被获得,不破坏顺式调控元件的原始功能。2突变速率Duret综述了最近的研究,表明弱选择力形成了密码子使用的偏见——优先使用特定的密码子以编码一种氨基酸—尽管其证据对于无脊椎动物相较脊椎动物更加清晰[DuretL.Evolutionofsynonymouscodonusageinmetazoans[J].CurrOpinGenetDev,2002,12(6):640-649.]。然而,Duret在得出选择对密码子偏见负责这一结论上是谨慎的,因为许多研究是基于假设同源突变速率和非偏见基因转化的简单模型,而简化已知是无效的。事实上正如Duret指出,突变速率实质上依赖于基因表达水平和在侧翼位点上和基因组区域内的碱基组成而变化。尽管同义密码子编码相同的氨基酸,它们不是被任意地使用,且与另外一些相比,一些的使用更为频繁。这种密码子使用偏见出现于生命王国中的许多物种。密码子使用根据一个给定基因组内的基因而变化,也根据分类群而变化。典型地,两种模型被提出以解释同义密码子子集的优先使用。2.1选择模型选择模型(翻译选择)假设存在密码子使用的共适应和优化翻译效率的丰富tRNA。选择模型预测了密码子使用偏见与基因表达模式之间的一种关联,在高度表达基因中被优先使用的同义密码子应该也对应更为丰富的tRNA。另外,选择行为应该导致向非优化密码子固定突变的可能性的降低,因此,也将导致在平衡时高表达基因中同义替代的更低速率。2.2中性模型.-- -中性模型(突变偏见)假设密码子偏见来源于突变过程的偏见。中性模型并没有预测密码子使用和基因表达间的任何关系。这种突变的压力应该影响基因组中的所有位置,不仅是同义位点而且是所有其他沉默位点(内含子和基因间区域),次之是非同义密码子位置,因此,这种模型预测了同义位点和基因组中相邻沉默位点的碱基组成之间的关联。最近的研究表明了其它过程也许能影响密码子偏见。值得注意的是,转录是可突变的,将导致基因表达与碱基组成之间的一种关联。中性和选择模型并不排斥突变,密码子的使用几乎在一定程度上反映了选择和突变压力还有漂移之间的一种平衡。也应该注意到,翻译选择并不是作用于同义密码子使用的唯一的选择压力。在细菌Escherichiacoli中,翻译选择已被清晰地阐明——由于冲突的选择压力非最优密码子可被保持于基因内。在真核基因中,一些涉及剪接或mRNA稳定的调控元件位于外显子。适当基因调控的需要将对序列产生约束,这将解释在哺乳基因中一些同义密码子位置探测到的选择压力。在同义密码子间没有选择差异时,鉴于选择压力作用于周围的非同义密码子位置,不能预计同义位点的碱基组成与基因组中其它中性位点的等同。取代模式在区域内不同有许多原因。第一,一个给定碱基位点上的突变速率取决于侧翼碱基的的性质(如CpG二核苷酸是哺乳基因组中的突变热点);第二,内含子和基因间区域的碱基组成也许受缺失和插入的强烈影响(如显著的可转座因素),然而,如此突变在同义位点强烈地反选择的;第三,转换和颠换取代模式在第三种密码子位置不同于非编码区域。这是由于遗传密码的结构:在二折叠退化位点,转换是同义突变,而非颠换。因此,在第三个密码子位置的颠换处于强烈的选择压力,然而转换是沉默突变。相反,在非编码区域,转换和颠换都是沉默的。因此,如果GC↔AT突变压力对转换和颠换是不同的,选择限制取代至转换的位点将具有不同于中性位点的GC含量,这种现象也能影响四折叠退化位点的碱基组成,因为非同义取代能改变二折叠退化密码子为四折叠退化密码子。关于同义密码子使用的研究表明,在多细胞物种如C.elegans或Drosophila中,甚至极小的表型效应能够经受自然选择。在脊椎动物中,密码子使用的主要决定因素是基因所处的等容的GC含量,而不是翻译选择。在考虑碱基组成上的等容效应后,检测密码子使用和基因表达的重要关系将是可能的;然而,并没有建立这个关系是翻译选择还是与转录耦合的突变偏见的后果。在一定程度上,突变是细胞分裂的副产物。雄性和雌性间的突变速率也应该是有区别的。对于哺乳类,这部分地正确。胚胎和蛋的形成是截然不同的细胞过程,因为对于大多数雌性生命,蛋在减数分裂Ⅰ期被阻止,然而胚胎经历连续的有丝分裂。通过比较X染色体上进化改变的速率和模式,其花费雌性生命的2/3,对于Y染色体和常染色体,观察者企图评估雌性和雄性突变的相对速率。Li、Yi和Makova综述了这个观点[LiWH,YiS,MakovaK.Male-drivenevolution[J].CurrOpinGenetDev,2002,12(6):650-656.],让我们领略从大的基因组范围的分析中获得的最新结果。他们推断,在灵长类、啮齿类和鸟类雄性中的一个提高的突变速率存在强有力的支持,.-- -3重组速率正如突变速率中的异质性在严格的观察上变得明显,重组速率上的大量变化也被发现。长期认为,在人类和果蝇的基因组内,在每兆碱基的厘摩上表达的每单位物理长度上的重组速率至少在一个数量级上变化。Nachman强调了这种异质性并综述了在非常精细水平分辨率上的重组变化的近期研究[NachmanMW.Variationinrecombinationrateacrossthegenome:evidenceandimplications[J].CurrOpinGenetDev,2002,12(6):657-663.]。Nachman也描述了这种变化在进化改变模式上的影响。预计选择在基因组领域以非常低速率的重组去除有害突变上不是很有效率,因此,预计各种各样的突变和转座子在这些区域得到积累。这个期望在主要地非重组额Y染色体上达到一种极致。Y染色体进化的经典模型假设,Y染色体源于X染色体,接着其以较低的重组速率进化,丧失基因功能和剂量补偿,仅保留雄性生育所必须的少数基因。然而,正如Carvalho所评论的[CarvalhoAB.OriginandevolutionoftheDrosophilaYchromosome[J].CurrOpinGenetDev,2002,12(6):664-668.],基因组分析正在揭示,存在Y染色体更多的进化。人类和蝇类的Y染色体似乎从常染色体经受一系列转座,这充当有功能的性相关基因的一种不间断的源泉。事实上,从常染色体的这种DNA转移也许甚至解释了一些物种中Y染色体的起源。正如Carvalho评论,果蝇Y染色体不表现与X染色体的同源痕迹,相反,也许已经从一种配角或B染色体进化而来。减数重组—减数分裂前期I阶段同源染色体间的遗传信息交换—在真核生物中普遍存在。交换发生的速率在物种间、个体间、性别间、基因组的不同区域间也许充分地变化。重组速率变化对遗传变异的建构和我们绘制和鉴别疾病基因的能力具有深远的意义。历史上,用细胞工程的方法测量互换的速率,通过观察微观的交叉,或通过在使用表型标记的遗传杂交中获得的重组个体的数量。利用完整的基因组序列和数以千计的分子标记,详细地描述重组的数量和分布是可能的。理论模型表明,重组的水平能在许多方面影响遗传变异的数量和模式。例如,在基因组区域,重组减少或缺失,在不同位置的等位基因间的非稀有联合是期望的。作为在连锁位点的选择的后果,除了较低频率的多态性之外,具有少数重组的基因组区域也许庇护较少数的多态性。另外,选择的功效被期望随着重组速率的一种功能而变化:由于连锁的干扰减小了在低重组区域固定有益突变的可能性。大量理论工作都致力于研究选择和连锁共同影响遗传变异模式的方式,Nachman综述了两种模式,即遗传变异的数量和等位基因频率的分布。3.1遗传变异的数量在连锁位点的选择模型表明,遗传变异的数量在低重组区域也许被减少了。遗传搭车引用适应性突变的固定和连锁突变体的相关固定。在最简单的情况下,如果缺乏重组时一个新的突变出现并席卷一个种群而固定于基因组区域,一种单一单体型将被固定于所有的个体。如果在选择席卷的过程中存在一些重组,多于一种的单体型也许依然追随适应性突变体的固定,且较少的突变体将消失。因此,预计遗传搭车过程产生一种重组速率和核苷酸变异间的正相关。基于选择和连锁的另一个过程,即所谓的背景选择,也能产生重组速率和核苷酸变异间的正相关。这个过程基于从一个种群中通过选择去除有害突变和基于连锁中性突变体的.-- -联合去除。这两个过程并不是互相排斥的,相反,都可能一起至少在一定程度上起作用。3.2等位基因频率的分布选择也许导致在连接位点的等位基因频率的分布上的斜交,且这个效应在低重组区域将更为显著。随着选择性清除,向稳态杂合性的转变依赖于新突变的输入,其典型地以1/2N的频率出现(在一个有N个二倍体个体的种群中)。因此,在一个清除后的一段时期里,稀有等位基因的过量是被期望的。选择性清除也许驱动衍生等位基因至接近固定,遗留下了过量的稀有原始等位基因。更一般地,在积极选择的一些模型中,多态性的频率分布也许与重组的本地速率相关联。背景选择也许导致等位基因分布上的一种斜交,但仅在十分小的种群规模或选择系数的情况下发生。4转座因子转座子是许多真核基因组的普遍存在的特征,并决定丰度模式且年代富有启发性。Eickbush和Furano描述了在人类和果蝇基因组间复转座子的分布和自然历史上的这种巨大差别[EickbushTH,FuranoAV.Fruitfliesandhumansresponddifferentlytoretrotransposons[J].CurrOpinGenetDev,2002,12(6):669-674.]。人类基因组中的复转座子超过果蝇中的一千倍,且人类基因组也含有半百万复制的SINE元素,这在果蝇中是完全缺乏的。有趣地,与果蝇相比,复转座子在人类中也具有更少的多态性。因此可以推断与蝇种群相比复转座子更容易固定于哺乳种群,这表明它们在哺乳类中可被更好地接纳。这种不同的一个可能解释是,在人类中,异常的同源重组的速率更低一些。难有证据显示异常交换是蝇类中抵制逆转录转座子的选择的主要来源,但蝇类和哺乳类间的逆转录转座子丰度和年代对比是真实地惊人的,并为异常互换模型提供令人好奇的兴趣。5种群进化贯穿基因组图景的分子多样性模式提供机会以作出关于种群进化历史的推论,Excoffier综述了不断增长的文化,企图区别人类人口统计历史的两种主要模式[ExcoffierL.Humandemographichistory:refiningtherecentAfricanoriginmodel[J].CurrOpinGenetDev,2002,12(6):675-682.]。第一个模式是“多区域演化说”,假设今天的人类源于全世界范围内人口,在几百几千年前它们处于适当的地方。第一个模式是“单地起源说”,假设我们都来自相对小数量的非洲,一些在最近200000年迁移出非洲。为了区分这两种可能性,研究者从分子变异和在全世界取样的人类基因组之间的联系不平衡的水平上寻找线索。Excoffier推断证据倾向于一个近期于非洲起源的人类,尽管他指出许多复杂的选择必须被考虑以合并人口划分、选择可能性和迁移回非洲。6功能序列的进化除了收集的关于基因组图景的信息,人们在理解功能基因的进化和基因组组织上具有很大的兴趣。现今的几十年,已被发明的群体遗传学尝试鉴别体现自然选择信号的基因。由McDonald和Kreitman提出的一种普遍方法[McDonaldJH,KreitmanM.AdaptiveproteinevolutionattheAdhlocusinDrosophila[J].Nature,1991,351:652-654.],将物种间的变异水平比喻为物种间关于沉默和替换改变的区别。这种测试的先前应用限于单个基因,但最近的分析已经将类别扩展到基因组水平。正如Schlötterer所评论的[SchlöttererC.Towardsamolecularcharacterizationofadaptationinlocalpopulations[J].CurrOpinGenetDev,2002,12(6):683-687.].-- -,这些很有力的研究导致一个结论:由选择驱动的氨基酸的改变比以前认为的更为频繁。Schlötterer随后指出,基因组范围的分析将对发现当地人口如何适应环境甚至更为有用。该观点可追溯到Lewontin和Krakauer[LewontinRC,KrakauerJ.Distributionofgenefrequencyasatestofthetheoryoftheselectiveneutralityofpolymorphisms[J].Genetics,1973,74:175-195.],他们指出,如果环境条件选择一些人口中的本地适应性的等位基因,然后受影响的基因应该比不受影响的基因表现更大的在等位基因频率上的人口间分化。Schlötterer描述了大量方法,这个观点可被测试并综述了使用基因组数据观察当地适应性的少数研究。如此研究为鉴别作为本地适应性的假定目标的基因区域提供了有价值的过滤机理。Yang为一种方法提出了一个极好的介绍,该法通过匹配进化模型到来自多种物质的序列数据。推断自然选择行为。Yang的建模方法的真正力量是能够准确描述那个点和那个分类群体现了选择的证据[YangZH.Inferenceofselectionfrommultiplespeciesalignments[J].CurrOpinGenetDev,2002,12(6):688-694.]。假如人们能够适当地鉴别和匹配贯穿于物种的异源基因集合,这些相同的工具正准备扩展到基因组类,。将这些有力的新方法结合到基因组范围的数据以揭示许多更多的适应性进化改变的特征,这些改变在分子序列数据上被离开。基因组具有复杂的调控途径,为了确保发育期间基因表达的合适的时间或组织特异性。这些调控机理是进化的自我产物,且Gibson和Honeycutt解决了如何能够作出关于这一点的推理的问题[GibsonGreg,HoneycuttE.Theevolutionofdevelopmentalregulatorypathways[J].CurrOpinGenetDev,2002,12(6):695-700.]。因为调控途径的推理需要可观的实验台工作。我们对于任何机体的调控法则的全部集合的知识远远落后于我们对新基因的发现。然而,来自比较研究的清晰例子表明一个与另一个物种间调控路径的整个分支已经丧失或者获得。Gibson和Honeycutt也综述了使用生物信息学的方法鉴别调控路径目标的挑战并提供了一种进入适用于基因调控路径的网络理论著作的前奏。植物和动物中的许多基因分解为内含子和外显子。组织特异性交替剪接的观察表明了内含子的一种重要的进化优势依赖于调控的精细程度和由内含子剪接和转录过程所认可的每个基因产生的蛋白质的更广阵列。Lynch和Richardson通过指出内含子的存在强加的相当严重的成本,开始了它们剪接体内含子进化的综述[LynchM,RichardsonAO.Theevolutionofspliceosomalintrons[J].CurrOpinGenetDev,2002,12(6):701-710.]。内含子的出现增加了一个基因将被错误表达的危险,和几乎肯定地增加了导致功能丧失的突变数量,尽管可是,剪接体内含子是普遍存在的,Lynch和Richardson综述了也许导致对于剪接体内含子增殖的选择的机理。有机体必须实施的基本过程是遗传物质在细胞分裂期间合适分布。能够抓住这个过程的控制并在存在的姐妹细胞中变得过于表现的任何自私的遗传元素能够在一个种群中被容易地接收。因此,孟德尔规则的极其稳定性依赖于保证它们恰当分离的染色体特征的进化。Malik和Henikoff就着丝粒特异性组蛋白CenH3(Drosophila中的Cid)上的进化改变发表了一系列吸引人的文章,他们综述了中心体结合蛋白和中心体DAN间精细的共进化相互作用[MalikHS,HenikoffS.Conflictbegetscomplexity:theevolutionofcentromeres[J].CurrOpinGenetDev,2002,12(6):711-718.]。由于如果着丝粒组蛋白和DNA序列的结合是不兼容的,染色体行为上的严重扭曲将发生,Malik和Henikoff指出在这些序列上随着时间的分歧能够形成对物种间生殖隔离的遗传基础。传统上,群体遗传学关注作为受选择作用的遗传变异的来源的点突变。Whittam和Bumbaugh综述了在基因内容上的改变是适当突变的关键来源[WhittamTS,BumbaughAC.Inferencesfromwhole-genomesequencesofbacterialpathogens[J].CurrOpinGenetDev,2002,12(6):719-725.]。.-- -基因内容上的许多这种改变代表了随后的基因传递事件,且相关的约束随着基因内容的20%而变化。转移的基因常常对发病机理是关键的,且常常暗示作为转移代理的毒素耐受噬菌体。有趣的是,证据得到积累,即基因组片段可从细菌物种的不同菌株快速地和反复地丧失。这些比较分析已经描绘出一个极其动态的图景——细菌基因组是如何进化的。7前景与展望在绘制以复杂性状为基础的基因的希望下,定量化遗传变异和连锁失衡的基因组范围的模式是一种尝试[ClarkAG,OttoSP.Populationgeneticsandmolecularevolutionofwholegenomes[J].CurrOpinGenetDev2002,12(6):631-633.]。等位基因频谱和连锁失衡模式都反应了过去的进化事件,包括与复杂疾病相关联的选择,因此可被用于推断选择位点。Terwilliger检验这种观点并得出结论,这种发现与复杂疾病相关的基因的方法不如已经存在的连锁方法强大[TerwilligerJD,HaghighiF,HiekkalinnaTSetal.Abias-edassessmentoftheuseofSNPsinhumancomplextraits[J].CurrOpinGenetDev,2002,12(6):726-734.]。连锁方法比关联方法更为有效,如果存在相对少的大效应基因,其循环地突变,产生各种各样的可引起疾病的等位基因。存在另一个极端,许多疾病也许更为复杂,以至于在病因学上从一种原因到另一种存在较小的重叠,找到为如此疾病负责的基因超出了依赖于可复制结果的任何科学方法的范围。然而人类基因组计划将提供巨大丰富的数据,使得最大限度地利用这种数据以理解复杂疾病,更一般地,我们的进化历史仍然是一个挑战,将不可置疑地在这种生机勃勃的领域产生更多的发现。这也许被适当地命名为“群体遗传学”。最后,因为基因组学被认为是有力的类比分析并依赖针对大量的非模式有机体的完全基因组测序计划,描述物种内基因组范围的变异将迅速地发展,这将允许群体遗传学延伸其视野,超出十分狭窄的仅对人类和蝇类的关注。.-- -参考文献.--