书签分享收藏举报版权申诉 / 12

立即下载

当前位置：首页 > 教育专区 > 高考资料 > 基因组学.pdf

基因组学.pdf

上传人：赵**

文档编号：52450839

上传时间：2022-10-23

格式：PDF

页数：12

大小：919.14KB

( 4.5 )

《基因组学.pdf》由会员分享，可在线阅读，更多相关《基因组学.pdf（12页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、基因组学的定义有广义和狭义之分。广义的基因组学涉及到细胞学、遗传学、进化论和分子生物学的研究对象和范畴，可以称为是规模化的生物学研究。狭义的基因组学主要是以各类物种的基因组为研究对象，形成复杂的概念、理论框架和研究命题。基因内涵的最新发展基因在分子生物学中占据了核心地位，基因概念的发展贯穿了分子生物学理论的整个发展历程。在某种程度上，基因内涵的更新与发展可以视为分子生物学发展阶段的标志。从最初孟德尔通过离散型表型抽象出的遗传因子（geneticfactor）开始，在基因内涵的发展史上先后出现过遗传物质究竟是核酸还是蛋白质之争、DNA琴弦假说等早期探索性工作。目前，大家所熟知的基因形式包括顺反子

2、、断裂基因、重复基因、重叠基因、跳跃基因、rRNA 基因、tRNA 基因、假基因等，近来又发现了以微小 RNA基因为代表的多种非编码 RNA基因（noncoding RNA gene）、跨染色体剪接基因、跨物种横向转移基因（即自然界的转基因）等多种新的基因形式。诺贝尔生理医学奖在历史上曾多次与基因的更新和发展有关。随着更多新的基因形式被不断发现，基因内涵也在不断发生变化。Gerstein 等（2007）和 Pesole（2008）分别对基因的概念做了较新的定义。他们给出的基因新概念主要在强调基因编码产物形式的多样性，其本质仍然是遗传信息的功能单位，而且细胞核基因组 DNA也仍然是承载基因的主要

3、物质载体。在传统观念中，除了 RNA编辑、剪接，以及蛋白质分子修饰之外，遗传信息从 DNA到表型的传递过程几乎是完全线性的，至 DNA以下的所有环节，包括中间分子信息和表型均最终受控于基因组 DNA，生物的可遗传组分完全由基因组 DNA 的序列信息决定。但随着研究的不断深入，这种传统观点正逐渐被打破，目前已经知道表观遗传及其他“软”遗传（soft inheritance）机制也广泛参与了跨代遗传的调控过程。此外，已在细胞水平和整体水平上证明环境刺激引起的基因表达模式改变也可以在一定条件下实现跨代遗传，好像米丘林遗传学这一被扔进历史垃圾堆里的伪科学又死灰复燃了，在与孟德尔遗传学分道扬镳多年后又开

4、始有了相互靠拢的新迹象（说不准某些曾经的伪科学还真有咸鱼翻身的机会）。由此大胆推测，与基因组 DNA 序列及其修饰无关的可跨代的“软”遗传现象暗示细胞质分子缓冲信息系统中可能存在游离于基因组 DNA 之外（extra-genomic）的遗传信息单位。这种现象提示可能存在更为新颖的基因形式，即在细胞质中可能存在不以基因组 DNA序列为直接模版的新的基因形式。在此，本文将其暂称为游离基因（dissociative gene）。游离基因是指在细胞质以 RNA cache 为重要形式的分子缓冲系统中存在的不依赖于基因组 DNA 的独立遗传信息单位。Lolle 等（2005）认为细胞 RNA cache

5、系统中的分子序列可直接作为模板，这提示了游离基因的可能来源之一。目前只能间接推断游离基因的存在，游离基因的功能和作用机制等诸多细节尚不清楚，对于游离基因的来源、数量、维持机制、具体存在形式、游离基因如何复制、如何鉴定具体的游离基因、游离基因的进化机制等可能的科学问题均有待进一步研究。跨物种核移植胚胎可在早期发育但不能发育至更晚时期的可能原因之一就是因为游离基因的保守性较低、具有高度的物种特异性。事实上，在超越单纯的基因组 DNA 层次上，遗传信息单位的形式已从概念上得到了极大的拓展，目前已出现从基于 DNA序列信息的传统等位基因（allele）向广义生物等位基因（bioallele）发展的趋

6、势，包括表观等位基因（epiallele）（Johannes et al.,2008）、转录等位基因（transcriptallele）、蛋白等位基因（proteallele）、代谢等位基因（metaboallele）以及生理等位基因（physiallele）等一些广义生物等位基因的新概念。随着生命科学日新月异的发展，一些更新的基因形式将可能被发现或提出来，比如笔者认为，新出现的元基因组（metagenome）概念甚至可能催生跨个体、跨种的 metagene 出现。在可以预期的未来，生命科学的一个重要研究内容就是不断发现新的基因形式，并深入探索这些新的遗传信息单位（即新的基因形式）的特性及其参

7、与生命过程的调控机制。真核细胞的基因结构在遗传学上通常将能编码蛋白质的基因称为结构基因。真核生物的结构基因是断裂的基因。一个断裂基因能够含有若干段编码序列，这些可以编码的序列称为外显子。在两个外显子之间被一段不编码的间隔序列隔开，这些间隔序列称为内含子。每个断裂基因在第一个和最后一个外显子的外侧各有一段非编码区，有人称其为侧翼序列。在侧翼序列上有一系列调控序列(图 3-3)，主要包括启动子、增强子、终止子等。启动子启动子主要包括以下两个序列：在 5端转录起始点上游约 2030 个核苷酸的地方，有 TA TA框(TATA box)。TA TA框是一个短的核苷酸序列，其碱基顺序为 TATAA TA

8、AT。TATA框是启动子中的一个顺序，它是 RNA聚合酶的重要的接触点，它能够使酶准确地识别转录的起始点并开始转录。当 TA TA框中的碱基顺序有所改变时，mRNA 的转录就会从不正常的位置开始。在 5端转录起始点上游约 7080 个核苷酸的地方，有 CAA T 框(CAAT box)。CAA T 框是启动子中另一个短的核苷酸序列，其碱基顺序为 GGCTCAA TCT。CAAT 框是 RNA 聚合酶的另一个结合点，它的作用还不很肯定，但一般认为它控制着转录的起始频率，而不影响转录的起始点。当这段顺序被改变后，mRNA的形成量会明显减少。增强子在 5端转录起始点上游约 100 个核苷酸以远的位置

9、，有些顺序可以起到增强转录活性的作用，它能使转录活性增强上百倍，因此被称为增强子。当这些顺序不存在时，可大大降低转录水平。研究表明，增强子通常有组织特异性，这是因为不同细胞核有不同的特异因子与增强子结合，从而对不同组织、器官的基因表达有不同的调控作用。例如，人类胰岛素基因 5末端上游约 250 个核苷酸处有一组织特异性增强子。在胰岛素细胞中有一种特异性蛋白因子，可以作用于这个区域以增强胰岛素基因的转录。在其他组织细胞中没有这种蛋白因子，所以也就没有此作用。这就是为什么胰岛素基因只有在胰岛素细胞中才能很好表达的重要原因。终止子在 3端终止密码的下游有一个核苷酸顺序为 AA TAAA，这一顺序

10、可能对 mRNA 的加尾(mRNA 尾部添加多聚A)有重要作用。这个顺序的下游是一个反向重复顺序。这个顺序经转录后可形成一个发卡结构(图 3-4)。发卡结构阻碍了RNA聚合酶的移动。发卡结构末尾的一串 U 与转录模板 DNA 中的一串 A 之间，因形成的氢键结合力较弱，使mRNA与DNA杂交部分的结合不稳定，mRNA就会从模板上脱落下来。同时，RNA聚合酶也从DNA上解离下来，转录终止。AA TAAA顺序和它下游的反向重复顺序合称为终止子，是转录终止的信号。原核细胞的基因结构原核生物的基因结构多数以操纵子形式存在(见课本第二节中的乳糖操纵子)，即完成同类功能的多个基因聚集在一起，处于同一个启动

11、子的调控之下，下游同时具有一个终止子。两个基因之间存在长度不等的间隔序列，如与乳糖代谢有关酶的基因。在距转录起始点-35 和-10(转录起始点上游的核苷酸序列为“-”，下游的核苷酸序列为“+”)附近的序列都有 RNA聚合酶识别的信号。RNA聚合酶先与-35 附近的序列(称为 Pribnow 框)结合，然后才与-10附近的序列(称为 Sextama 框)结合。至于RNA聚合酶是如何从一个位置转到另一个位置的，目前尚不清楚。RNA聚合酶一旦与-10附近序列结合，就立即从识别位点上解离下来，DNA 双链解开，转录开始。除启动子外，往往还有一些调控转录的其他因子，如调节基因和操纵基因。原核生物基因转录

12、终止之前同样有一段回文序列结构，称为终止子，它的特殊的碱基排列顺序能够阻碍 RNA聚合酶的移动，并使其从 DNA模板链上脱离下来。基因组研究的基本方法：物理图谱（基因组研究的基本方法：物理图谱（physical mapphysical map）物理图谱是指有关构成基因组的全部基因的排列和间距的信息，它是通过对构成基因组的 DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。DNA 物理图谱是指 DNA链的限制性酶切片段的排列顺序，即酶切片段在 DNA链上的定位。因限制性内切酶在 DNA链上的切口是以特异序列为基础的，核苷酸序列不

13、同的 DNA，经酶切后就会产生不同长度的 DNA片段，由此而构成独特的酶切图谱。因此，DNA 物理图谱是 DNA 分子结构的特征之一。DNA 是很大的分子，由限制酶产生的用于测序反应的 DNA 片段只是其中的极小部分，这些片段在 DNA链中所处的位置关系是应该首先解决的问题，故 DNA 物理图谱是顺序测定的基础,也可理解为指导 DNA测序的蓝图。广义地说，DNA测序从物理图谱制作开始，它是测序工作的第一步。制作 DNA物理图谱的方法有多种，这里选择一种常用的简便方法标记片段的部分酶解法，来说明图谱制作原理。用部分酶解法测定 DNA物理图谱包括二个基本步骤：(1)完全降解选择合适的限制性内切酶将

14、待测 DNA链(已经标记放射性同位素)完全降解，降解产物经凝胶电泳分离后进行自显影，获得的图谱即为组成该 DNA 链的酶切片段的数目和大小。(2)部分降解以末端标记使待测 DNA的一条链带上示踪同位素，然后用上述相同酶部分降解该 DNA链，即通过控制反应条件使 DNA链上该酶的切口随机断裂，而避免所有切口断裂的完全降解发生。部分酶解产物同样进行电泳分离及自显影。比较上述二步的自显影图谱，根据片段大小及彼此间的差异即可排出酶切片段在 DNA链上的位置。下面是测定某组蛋白基因 DNA物理图谱的详细说明。完整的物理图谱应包括人类基因组的不同载体 DNA克隆片段重叠群图，大片段限制性内切酶切点图，DN

15、A片段或一特异 DNA序列（STS）的路标图，以及基因组中广泛存在的特征型序列（如 CpG 序列、Alu序列，isochore）等的标记图，人类基因组的细胞遗传学图（即染色体的区、带、亚带，或以染色体长度的百分率定标记），最终在分子水平上与序列图的统一。基本原理是把庞大的无从下手的 DNA先“敲碎”，再拼接。以Mb、kb、bp 作为图距，以DNA探针的 STS（sequencetags site）序列为路标。1998 年完成了具有 52,000 个序列标签位点(STS)，并覆盖人类基因组大部分区域的连续克隆系的物理图谱。构建物理图的一个主要内容是把含有 STS 对应序列的DNA的克隆片段连接成

16、相互重叠的“片段重叠群（contig）”。用“酵母人工染色体(YAC)作为载体的载有人 DNA片段的文库已包含了构建总体覆盖率为 100%、具有高度代表性的片段重叠群”，近几年来又发展了可靠性更高的 BAC、PAC库或 cosmid 库等。DNADNA测序技术：测序技术：Sanger 法测序的原理就是利用一种DNA 聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成，每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)，并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于 ddNTP 缺乏延伸所需要的 3-OH 基团，使延长的寡聚核

17、苷酸选择性地在G、A、T 或 C 处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs 和 ddNTPs 的相对浓度可以调整，使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。基因组注释基因组注释(Genome annotation)是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。

18、从基因组序列预测新基因,现阶段主要是 3 种方法的结合:(1)分析 mRNA 和 EST数据以直接得到结果;(2)通过相似性比对从已知基因和蛋白质序列得到间接证据1 ;(3)基于各种统计模型和算法从头预测。对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释:(1)序列数据库相似性搜索;(2)序列模体(Motif)搜索;(3)直系同源序列聚类分析(Cluster of orthologousgroup,COG)2 。随着微生物全基因组序列测定速率的加快,开发有 Web 接口的高效、综合基因组注释系统十分要。近年来,国际上已有一些这样的工具,如基于 Java

19、的微生物基因组数据库接口。尽管 JMGD 提供了一个很好的图形化接口程序,却并不具有基因组自动注释功能。德国国家环境和健康研究中心开发的蛋白质摘录、描述和分析工具(Protein extrac2tion,description,and analysistool,PEDANT)是大型基因组分析系统,整合了大量基因组功能信息和结构信息。PEDANT 注释功能强大3 ,适用范围广,但没有便于操作的图形界面,而且需要较强的硬件系统支持。目前,微生物基因组全序列测定通常由中小实验室独立完成,有必要开发和集成基于 PCPLinux 系统并以免费数据库管理系统、免费软件和公共数据库资源为主的基因组信息注释

20、系统。GCGC 含量含量：在 DNA4 种碱基中，鸟嘌呤和胞嘧啶所占的比率称为GC 含量。在双链 DNA 中，腺嘌呤与胸腺嘧啶（A/T）之比，以及鸟嘌呤与胞嘧啶（G/C）之比都是 1。但是，（A+T）/（G+C）之比则随 DNA 的种类不同而异。、GC 含量愈高，DNA 的密度也愈高，同时热及碱不易使之变性，因此利用这一特性便可进行DNA 的分离或测定。基因组重复序列分类：基因组重复序列分类：组成基因组的 DNA顺序，根据其重复的频度可分为三类。一是基因组只有一个复制顺序的单一 DNA，二为高度重复顺序（highly repetitivesequence），由较短的顺序 105107 次直线连

21、结而成，其中含随体 DNA等。第三为中等程度的重复顺序（moderately repetitive sequence），为有 300500 个核苷对的大致相同的顺序例如在将哺乳类的 DNA 用限制酶 AluI（AGCT）切断时所产主的主要片断中所见到的高频率（105）的顺序（AluIfamily）与单一 DNA 一起分散存在的，以及像核糖体 RNA 基因或组蛋白基因群那样的多次成直线相连存在的（多基因群）都包含在这一类中。此外有在反方向上重复的顺序（inverted repetitive sequence），其变性 DNA折叠成发夹结构（hairpinstructure，foldback st

22、ructure，snapback structure），在编码分析中可迅速再结合的类型。1.高度重复序列重复几百万次，一般是少于 10 个核苷酸残基组成的短片段。如异染色质上的卫星 DNA。它们是不翻译的片段。在小鼠中约占基因组的 10。（重复序列是为了大量合成蛋白质和核酸）2.中度重复序列重复次数为几十次到几千次。在小鼠中约占 20。如 rRNA 基因、tRNA 基因和某些蛋白质（如组蛋白、肌动蛋白、角蛋白等）的基因。3.单一序列在整个基因组中只出现一次或少数几次的序列，在小鼠中约占基因组的 70。如珠蛋白基因、卵清蛋白基因、丝心蛋白基因等。实验证明，所有真核生物染色体可能均含重复序列而原核

23、生物一般只含单一序列。高度和中度重复序列的含量随真核生物物种的不同而变化。密码子特点规律：密码子特点规律：每个密码子三联体(triplet)决定一种氨基酸理化性质相近的氨基酸的密码子排列较近，有利于在基因突变时不大影响蛋白质的性质。mRNA上的密码子是连续的，两个密码子间无任何成分分隔，即无间断讯号特点特点.遗传密码子是三联体密码：一个密码子由信使核糖核酸上相邻的三个碱基组成。密码子具有通用性：不同的生物密码子基本相同，即共用一套密码子。遗传密码子无逗号：两个密码子间没有标点符号，密码子与密码子之间没有任何不编码的核苷酸，读码必须按照一定的读码框架，从正确的起点开始，一个不漏地一直读到终止信号

24、。遗传密码子不重叠，在多核苷酸链上任何两个相邻的密码子不共用任何核苷酸。密码子具有简并性：除了甲硫氨酸和色氨酸外，每一个氨基酸都至少有两个密码子。这样可以在一定程度内，使氨基酸序列不会因为某一个碱基被意外替换而导致氨基酸错误。密码子阅读与翻译具有一定的方向性：从 5端到 3端。有起始密码子和终止密码子，起始密码子有两种，一种是甲硫氨酸（AUG），一种是缬氨酸（GUG），而终止密码子（有 3 个，分别是 UAA、UAG、UGA）没有相应的转运核糖核酸（tRNA）存在，只供释放因子识别来事先翻译的终止。在信使 RNA中，碱基代码 A 代表腺嘌呤，G 代表鸟嘌呤，C 代表胞嘧啶，U 代表尿嘧啶（注意

25、：RNA与 DNA 不同，RNA没有胸腺嘧啶 T，取而代之的是尿嘧啶 U，按照碱基互补配对原则，U 与 A 形成配对）。RNARNA世界：世界：RNA不仅可以是信息的携带者，还可以是功能的执行者，这使科学家们想到原始的生物世界可能是一个只由RNA组成的“RNA 世界”。因发现 RNA具有催化和自复制(不同于病毒 RNA的自复制)功能而提出的一种假说，认为生物进化过程中，最早出现的生物大分子是 RNA，而不是 DNA 和蛋白质，即在进化某个阶段有一个“RNA 世界”。细胞器的起源：细胞器的起源：关于真核细胞细胞器的起源问题，仍然是生物学领域的一个不解之迷，很多学者提出了不同的见解，其中内共生学说

26、具有一定的代表性。这一学说认为：大约在十几亿年前，一些大型的具有吞噬能力的细胞，吞噬了几种原核生物(细菌和蓝藻)，由于后者没有被细胞所分解消化，从而由寄生过渡到共生并成为宿主细胞的细胞器。如好氧细胞成为线粒体、蓝藻成为叶绿体。这一些学说有一定的合理性。主要表现在以下几点：真核细胞中的叶绿体、线粒体内有少量的 DNA和 RNA，原核细胞也有 DNA和 RNA，且均不形成染色体。线粒体和叶绿体与细胞中的其它细胞器的显著区别是，叶绿体和线粒体为双层膜结构，外膜可能是吞噬泡的膜(细胞膜的一部分)，内膜为原核细胞的膜。自然界中存在着许多共生现象。如地衣中菌类和藻类的共生，大豆与根瘤菌的共生等。变形虫等单

27、细胞动物能吞食食物形成食物泡；白细胞能吞食病菌等，都说明吞食现象是可能存在的。当然，内共生学说并没有直接的证据，还不完善，如不能解释其他细胞器的起源问题等。密码子的进化假说密码子的进化假说立体化学假说韦斯认为密码的起源和分配直接与 RNA和氨基酸之间的化学作用密切相关，最终密码的立体化学本质扩展到氨基酸与相应的密码子之间物理和化学性质的互补性，这就是立体化学假说。一些研究表明编码氨基酸的三联体密码或反密码子出乎意料地经常出现在对应的氨基酸在 RNA上的结合位点，这是遗传密码具有立体化学性质的坚实证明。近 30 年来对于遗传密码起源的研究主要是从这个角度进行的，亚鲁斯（M.Yarus）指出三联体

28、密码是从原始氨基酸位点的结合功能演变成为现在的密码子和反密码子。大量的研究表明氨基酸与反密码子的直接作用以及疏水-亲水相互作用在遗传密码的起源中可能具有重要的意义。1999年，霍恩（G.Houen）根据分子识别理论把编码的氨基酸分成两类：疏水性和亲水性，这个划分直接与蛋白质的折叠相关。简单初始的遗传密码能区分这两种类型的氨基酸，使蛋白质具有能够折叠成稳定三维结构的能力，这种多肽可通过与RNA分子形成核糖体蛋白复合物来稳定编码RNA。霍恩的立体化学理论认为原始的密码子应该是编码亲水性氨基酸精氨酸、疏水性氨基酸亮氨酸和催化氨基酸丝氨酸。为了增加蛋白质功能的复杂性，遗传密码的进一步扩展主要是增加功能

29、性亲水氨基酸,因为暂时还没有增加结构性疏水氨基酸的必要性。在遗传密码进化到某一阶段，双链 DNA 引入作为遗传信息的载体取代 RNA 并最大程度保证遗传信息的安全性，此过程需要高度特异性的酶，因此需要进一步对遗传密码进行优化，需要扩展到更多的编码氨基酸5。2005 年，吴焕麟（WuHuan-Lin）基于翻译过程中每一步三个碱基的读码机制提出遗传密码是从单体到双联体密码再到三联体密码子的进化过程6，认为三联体密码是从两种类型的双联体密码逐渐进化而来的，这两种双联体密码划分是按照三联体密码中固定的碱基位置划分的，包括前缀密码子（prefixcodons）和后缀密码子（suffixcodons）。这

30、个假设可以解释遗传密码的多种特征，如遗传密码包含四重简并三联体密码和两重简并三联体密码的模式，翻译错误最小化性质的本质，以及为什么只有 20 个编码的氨基酸。立体化学假说表明立体化学基础与遗传密码的优化达到编码蛋白质的错误最小化效应相一致。但是，因为遗传密码变化的机制可能与密码产生初期完全不同，而所有立体化学理论可能处理的只是最后共同祖先存在的密码。tRNA 和 AARS引入到蛋白质合成过程后，使得氨基酸与相应的密码子核苷酸的作用间接化，因此氨基酸和密码子之间的立体化学作用可能只在遗传密码的特定时期起作用。共进化假说或生物合成假说共进化假说（co-evolutionhypothesis）提出传

31、统的密码是从原始的简单密码进化而来，密码子的进化与氨基酸生物合成的进化是并列的。主要证据是这个原始的密码可能是由 64 个密码子通过高度简并只编码小量的氨基酸，那些来自相关合成路径的物理化学性质不同的氨基酸却具有相似的密码子，表明密码子的进化与氨基酸生物合成具有密切相关性。王子晖（J.Tze-FeiWong）认为现在引入的氨基酸密码可能是通过篡夺与它具有相近生物合成路径氨基酸的密码而得到的7，同时他还指出氨基酸和相应编码的忠实性反映了氨基酸生物合成路径的相似性，并非物理化学性质的相似性。王子晖的共进化理论鉴定了 8 组成对的前体和产物7。在王子晖提出共进化理论后，又有很多人进行了相关的探索，下

32、面主要介绍一下戴维斯（B.K.Davis）和克利普肯（L.Klipcan）的研究。依据结构特征可以把 20 个 AARS 划分为两个家族（I 类和 II 类）。1999 年，戴维斯基于氨基酸生物合成路径长度和密码分配时间描述符之间的比较构建了密码进化的主要阶段。首先，原始密码起源于4 个固氮氨基酸（天冬氨酸、谷氨酸、天冬酰胺、谷酰胺），这四个氨基酸对应于 16 个三联体密码（NAN 系列，其中 N 代表 A、U、C和 G）。这些氨基酸组成的多聚阴离子氨基酸肽链主要功能是把不带电荷的氨基酸定位于带正电荷的矿物质表面。其次，为了降低基因突变到不可读密码的危险性，需要遗传密码进一步扩展，结合疏水性氨

33、基酸增加扩展，NUN 系列密码（N 代表A、U、C 和 G）分配相对较慢，它编码大部分非极性氨基酸。最后，带正电荷和芳香性氨基酸相继引入，此时具有酸碱催化功能的酶合成也成为可能，两种类型的 AARS 就属于这一时期。tRNA序列的多样性和 RNA 复制过程中的错误率表明密码进化发生在太古宙初期的 2000 万年间，来自于同时代关于碳固定的自催化循环表面反应网络的信息，为遗传密码的结果提供了半经验的证据8。2004 年，克利普肯按照 AARS的分类与氨基酸的生物合成路径的组织相对应，提出 AARS 与氨基酸以及辅因子的生物合成存在关联性。依据此关联性，指出 II 类 AARS相对应的氨基酸较早出

34、现，而 I 类 AARS 对应的氨基酸在进化上出现较晚。最先的遗传密码可能编码五个基本氨基酸：丙氨酸、甘氨酸、丝氨酸、天冬氨酸、缬氨酸和谷氨酸。所有这些氨基酸均是 GC 丰富的氨基酸，且相应的生物合成路径最短、最简单，以及相应的 AARS属于 II 类。接着可能是四到五个氨基酸对应的遗传密码扩展，分别为天冬酰胺、苏氨酸、脯氨酸、谷酰胺，另一个可能是精氨酸，总的来说这些氨基酸生物合成路径的复杂性处于中间位置。精氨酸是一个高 GC 的氨基酸，且其生物合成的路径也很长，有人预测精氨酸的编码可能起源于一些简单的氨基酸如鸟氨酸或瓜氨酸在早期的遗传密码。第三阶段所有编码的氨基酸均引入进来，这次引入的氨基酸

35、与 I 类 AARS 有很强的相关性,同时这些氨基酸使用的遗传密码多含尿嘧啶，最后加入的这些氨基酸的合成通常需要非常长的代谢途径。共进化假说考虑了传统遗传密码中所有密码子的模式和误差最小化的性质，同时也解释了为何遗传密码中 64 个密码子只编码 20 个氨基酸。共进化观点虽很新颖，但存着在根本性的问题，例如前体氨基酸转化的产物氨基酸为什么恰好对应于密码子某一个碱基的突变？第二位碱基在密码子设定上为何起着决定性作用，以及复杂的密码子多态性现象从何而来？共进化假说是基于氨基酸生物合成与密码子的关系假设密码子的进化过程，初始的编码氨基酸密码均是酸性氨基酸。同时这假说不能解释初始编码蛋白的功能，笔者认

36、为蛋白质的初始功能可能是为了遗传信息载体的结构与功能的稳定性，依此初始编码，应该是碱性的大体积的氨基酸与遗传信息载体（DNA或 RNA）更具有相互作用的有效性，这也和初始蛋白在 RNA世界只是结构性功能假设相一致。综合进化假说1999 年，奈特（R.D.Knight）等人提出遗传密码进化的综合性假说9，认为适应性假说、立体化学假说和共进化假说三者并不排斥，而是三者作为驱动力分别在遗传密码进化的不同阶段起到主导作用。在遗传密码起源的初期，可能主要是氨基酸和密码子之间的直接相互作用来决定氨基酸的编码。其次是在新氨基酸的引入和密码子扩展阶段，共进化作用占据主导地位。随着 tRNA的进化和蛋白质的功能

37、增加，以及 mRNA-tRNA-AARS蛋白质翻译的复杂系统出现，逐渐去除了氨基酸和密码子的直接相互作用，密码子在不同尺度上的交换在某些程度上允许通过密码子的重新分配进行优化。也就是说这三种驱动力可能在遗传密码进化并最终达到当前密码子分配形式的过程中均发挥重要的作用。分步进化假说笔者的研究组在各个假说的基础上提出了遗传密码的分步进化假说3-4，希望能够对遗传密码的进化给出更合理的解释。现在想象一下初始遗传密码在 RNA世界里存在和进化的基本过程与起源的基本逻辑关系。初始生命结构元素间的相互作用一定遵从由简到繁的原则，分子间相互作用的开始也比较宽泛，最小的编码系统可能只要区分嘌呤（R）和嘧啶（Y

38、）就够了。假定现代密码在生命的早期阶段已被统一并相对忠实地继承了 RNA密码的基本关系，这个可能的原始编码就至少有了七个氨基酸（异亮氨酸与甲硫氨酸视为等同），同时也有起始和终止密码子初始的氨基酸主要包括大体积的疏水性氨基酸和带正电荷的氨基酸，此时蛋白质的功能主要用于维持遗传信息载体的结构与功能的稳定性。对于遗传密码的第一次延伸，引入新的构建元件是基于两个基本假定：鸟嘌呤（G）的引入和腺嘌呤（A）-次黄嘌呤（I）编辑机制的作用。这两种假设给原始的 mRNA提供了显著的结构多样性和编码能力。首先，G 引入到转录本中存在有限的途径，由于 AG 和 GU 作为剪切体的识别信号，因此密码子的扩展只限于色

39、氨酸、谷氨酸、天冬氨酸、半胱氨酸和甘氨酸。其次，A-I 的可选择性和经常性的 RNA编辑使 mRNA的复杂性不断增加。遗传密码的这次延伸引入了带负电荷的酸性氨基酸，从而使编码的蛋白质具有行使催化功能的可能性。对于遗传密码的第二次延伸，即当 GU 和 AG 从作为剪接信号这一功能释放出来以后（剪接体的结构和功能随着蛋白质的演变而复杂化和精密化），遗传密码引入了精氨酸、丝氨酸和缬氨酸，氨基酸的个数变成15 个。遗传密码的最终拓展，在于 DNA 作为信息载体取代 RNA 使得信息载体具有更高的准确性和稳定性，同时也产生了最为关键的从 RNA 到DNA的逆转录机制。基于模板的 DNA复制机制开辟了新的

40、 DNA-蛋白质-RNA 世界同时当胞嘧啶（C）和其脱氧衍生物分别作为结构模板加入RNA和 DNA时，标准遗传密码也就随之产生并被固定下来了。遗传密码本身得到新的补充并且编码能力大大提高，组氨酸、苏氨酸、丙氨酸、谷氨酸和脯氨酸的加入使编码能力达到 20 个。遗传密码的进化就是密码子的有序发生和合理分布，这个分布的合理性一定经过复杂的选择过程。首先，通过长时间的创造和优化，使其在基因组核苷酸序列发生突变时对蛋白质的结构起到缓冲作用。第二，密码子采取这样一种特殊的排布方式，当 DNA组成从 AU 富集区到 GC 富集区改变时，氨基酸的分布倾向于从具有催化性质的氨基酸转到具有结构性质的氨基酸。第三，

41、充分利用密码子第三位多变的优势（通常体现在R 和 Y 之间的转换），来改变编码氨基酸的物理化学性质，致使在趋变半区里大约有 15 个氨基酸对第三个位置 R 和 Y 之间的转换呈现敏感10。基于分步进化假说，推测遗传密码初期编码蛋白的功能是为维持遗传信息载体的稳定性，因此大体积的碱性氨基酸的功能对于酸性的 DNA来讲则有效。只有当遗传密码的编码能力提高，蛋白质才逐渐取代 RNA 或 DNA 行使其生物学功能。笔者研究组提出的遗传密码分步进化的机制，不仅解释了遗传密码的分配机制是为了平衡氨基酸多样性以及对DNA 突变的鲁棒性，也同时解释了AARS 和遗传密码的共进化特征。对于遗传密码的进化有很多假

42、说，各自都有一定的合理性。综合各种密码子进化假说，可看出早期密码理论更倾向于有错误倾向的模糊密码子到逐渐准确并最终达到当前的状态。假定初始翻译装置完全由 RNA构成，但这种初始的 RNA翻译装置的准确性有限，为了增加其准确性，使翻译装置变成蛋白质和 RNA的复合体。遗传密码的进化过程，同时也伴随以蛋白质为主体的分子机制和细胞过程的进化，包括氨酰 tRNA 合成酶从初始翻译机器上的脱离、DNA 作为信息载体而取代 RNA以及 AARS 和 tRNA共进化等基本过程。其实，很难再次用实验来证明遗传密码的起源和进化，但是相信这个过程的多次模拟都会给我们带来同样的结果。因此，未来要探讨的应该是生命赖以

43、存在的分子机制和细胞过程的起源和进化，而不是单纯地争论遗传密码的起源和进化，前者会为建立基因相互作用网络和解释不同重要的生命现象提供理论基础。密码子变化与密码子变化与 DNADNA组分动态变化关系：组分动态变化关系：根据 DNA核苷酸组分的动态变化规律将遗传密码的传统排列按密码子对 GC和嘌呤含量的敏感性进行了重排.新密码表可划分为 2 个半区(或 1/2 区)和 4 个四分区(或 1/4 区).就原核生物基因组而言,当 GC 含量增加时,物种蛋白质组所含的氨基酸倾向于使用 GC 富集区和嘌呤不敏感半区所编码的氨基酸,它们均使用四重简并密码,对 DNA序列的突变具有相对鲁棒性(Robustne

44、ss).当 GC含量降低时,大多数密码子处于AU富集区和嘌呤敏感半区,这个区域编码的氨基酸具有物理化学性质的多样性.因为当密码子第三位核苷酸(CP3)在嘌呤和嘧啶之间发生转换时,密码子所编码的氨基酸也倾向于发生变化.关于遗传密码的进化存在多种假说,包括凝固事件假说、共进化假说和立体化学假说等,每种假说均试图解释遗传密码所表现出来的某些化学和生物学规律.基于遗传密码的物理化学性质、基因组变异的规律和相关的生物学假说,本研究提出了遗传密码分步进化假说(The Stepwise Evolution Hypothesis for theGenetic Code).在人们推断的最原始的 RNA世界里,原

45、初(Primordial)遗传密码从只能识别嘌呤和嘧啶开始,编码一个或两个简单而功能明确的氨基酸.由于胞嘧啶C的化学不稳定性,最初形成的遗传密码应该仅仅由腺嘌呤A和尿嘧啶U来编码,却可得到一组 7 个多元化的氨基酸.随着生命复杂性的增加,鸟嘌呤 G 从主载操作信号的功能中释放出来,再伴随着 C 的引入,使遗传密码逐步扩展到 12,15 和 20 个氨基酸,最终完成全部进化步骤.遗传密码的进化过程同时也伴随以蛋白质为主体的分子机制和细胞过程的进化,包括氨酰 tRNA 合成酶(AARS)从初始翻译机器上的脱离、DNA 作为信息载体而取代RNA以及 AARS和tRNA共进化等基本过程.分子机制和细胞

46、过程是生命的基本组成元件,它们不但自己不断地趋于完善,也促使生命体走着不尽相同的道路,或维持鲁棒性(Robustness,如细菌),或寻觅多元化(Diversity,如节肢动物和植物),或追求综合性(Complexity,如脊椎动物真细菌真细菌细菌中的最大一类。多数为单细胞，呈球状、卵圆形、杆状或螺旋状，有的含细菌色素，具有坚韧的细胞壁，外形较固定。有非运动型或极生鞭毛和周生鞭毛运动型。如链球菌、芽孢杆菌、大肠杆菌、乳杆菌等。除古细菌以外的所有细菌均称为真细菌。最初用于表示“真”细菌的名词主要是为了与其他细菌相区别。真细菌包括紫细菌、黄细菌、革兰氏阳性菌、绿色非硫细菌。真细菌域的细菌等是属于原

47、核生物,具有拟核(nucleoid).拟核是原核生物细胞内DNA分子所在区域,由一个环状 DNA 分子卷曲折叠而成,DNA 不与蛋白质结合,无染色体或染色质，没有核膜包围.原核细胞直径在 110m 之间。多数原核生物细胞膜外有一层细胞壁（cell wall）保护着，主要成分为肽聚糖。细胞质中仅有核糖体以及各种内含物，如糖原颗粒，脂肪颗粒。某些原核生物中有中膜体，它是质膜内陷褶皱折叠而成的，其中有小泡和细管样结构，含有琥珀酸脱氢酶和细胞色素类物质，与能量代谢有关。分裂方式多位无丝分裂。细菌基因组的一般特点细菌基因组的一般特点基因组通常仅由一条环形或线形双链 DNA分子构成只有一个复制起点有操纵子

48、串联在一起，受同一调控区调节，合成多顺反子 mRNA。编码蛋白质的结构基因为拷贝的，但 rRNA 基因一般是多拷贝的。非编码 DNA所占比例少，类似于病毒基因组基因组 DNA 具有多种调控区，如复制起始区.复制中止区，转录启动子等特殊序列，以及还有重复序列。与真核生物基因组类似，也具有可移动的 DNA序列。细菌染色体基因组结构的一般特点细菌染色体基因组结构的一般特点（1）细菌的染色体基因组通常仅由一条环状双链 DNA 分子组成细菌的染色体相对聚集在一起，形成一个较为致密的区域，称为类核（nucleoid）。类核无核膜与胞浆分开，类核的中央部分由 RNA和支架蛋白组成，外围是双链闭环的 DNA超

49、螺旋。染色体 DNA通常与细胞膜相连，连接点的数量随细菌生长状况和不同的生活周期而异。在 DNA链上与 DNA复制、转录有关的信号区域与细胞膜优先结合，如大肠杆菌染色体 DNA 的复制起点（OriC）、复制终点（TerC）等。细胞膜在这里的作用可能是对染色体起固定作用，另外，在细胞分裂时将复制后的染色体均匀地分配到两个子代细菌中去。有关类核结构的详细情况目前尚不清楚（2）具有操纵子结构（有关操纵子结构详见基因表达的调控一章）其中的结构基因为多顺反子，即数个功能相关的结构基因串联在一起，受同一个调节区的调节。数个操纵子还可以由一个共同的调节基因（regulatorygene）即调节子（regul

50、on）所调控。（3）在大多数情况下，结构基因在细菌染色体基因组中都是单拷贝但是编码 rRNA 的基因 rrn 往往是多拷贝的,这样可能有利于核糖体的快速组装，便于在急需蛋白质合成时细胞可以在短时间内有大量核糖体生成（4）和病毒的基因组相似，不编码的 DNA部份所占比例比真核细胞基因组少得多。（5）具有编码同工酶的同基因（isogene）例如，在大肠杆菌基因组中有两个编码分支酸（chorismicacid）变位酶的基因，两个编码乙酰乳酸（acetolactate）合成酶的基因。（6）和病毒基因组不同的是，在细菌基因组中编码顺序一般不会重叠，即不会出现基因重叠现象。（7）在 DNA分子中具有各种功

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基因组

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：基因组学.pdf
链接地址：https://www.deliwenku.com/p-52450839.html