基因组学.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基因组学.pdf》由会员分享,可在线阅读,更多相关《基因组学.pdf(12页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、基因组学的定义有广义和狭义之分。广义的基因组学涉及到细胞学、遗传学、进化论和分子生物学的研究对象和范畴,可以称为是规模化的生物学研究。狭义的基因组学主要是以各类物种的基因组为研究对象,形成复杂的概念、理论框架和研究命题。基因内涵的最新发展基因在分子生物学中占据了核心地位,基因概念的发展贯穿了分子生物学理论的整个发展历程。在某种程度上,基因内涵的更新与发展可以视为分子生物学发展阶段的标志。从最初孟德尔通过离散型表型抽象出的遗传因子(geneticfactor)开始,在基因内涵的发展史上先后出现过遗传物质究竟是核酸还是蛋白质之争、DNA琴弦假说等早期探索性工作。目前,大家所熟知的基因形式包括顺反子
2、、断裂基因、重复基因、重叠基因、跳跃基因、rRNA 基因、tRNA 基因、假基因等,近来又发现了以微小 RNA基因为代表的多种非编码 RNA基因(noncoding RNA gene)、跨染色体剪接基因、跨物种横向转移基因(即自然界的转基因)等多种新的基因形式。诺贝尔生理医学奖在历史上曾多次与基因的更新和发展有关。随着更多新的基因形式被不断发现,基因内涵也在不断发生变化。Gerstein 等(2007)和 Pesole(2008)分别对基因的概念做了较新的定义。他们给出的基因新概念主要在强调基因编码产物形式的多样性,其本质仍然是遗传信息的功能单位,而且细胞核基因组 DNA也仍然是承载基因的主要
3、物质载体。在传统观念中,除了 RNA编辑、剪接,以及蛋白质分子修饰之外,遗传信息从 DNA到表型的传递过程几乎是完全线性的,至 DNA以下的所有环节,包括中间分子信息和表型均最终受控于基因组 DNA,生物的可遗传组分完全由基因组 DNA 的序列信息决定。但随着研究的不断深入,这种传统观点正逐渐被打破,目前已经知道表观遗传及其他“软”遗传(soft inheritance)机制也广泛参与了跨代遗传的调控过程。此外,已在细胞水平和整体水平上证明环境刺激引起的基因表达模式改变也可以在一定条件下实现跨代遗传,好像米丘林遗传学这一被扔进历史垃圾堆里的伪科学又死灰复燃了,在与孟德尔遗传学分道扬镳多年后又开
4、始有了相互靠拢的新迹象(说不准某些曾经的伪科学还真有咸鱼翻身的机会)。由此大胆推测,与基因组 DNA 序列及其修饰无关的可跨代的“软”遗传现象暗示细胞质分子缓冲信息系统中可能存在游离于基因组 DNA 之外(extra-genomic)的遗传信息单位。这种现象提示可能存在更为新颖的基因形式,即在细胞质中可能存在不以基因组 DNA序列为直接模版的新的基因形式。在此,本文将其暂称为游离基因(dissociative gene)。游离基因是指在细胞质以 RNA cache 为重要形式的分子缓冲系统中存在的不依赖于基因组 DNA 的独立遗传信息单位。Lolle 等(2005)认为细胞 RNA cache
5、 系统中的分子序列可直接作为模板,这提示了游离基因的可能来源之一。目前只能间接推断游离基因的存在,游离基因的功能和作用机制等诸多细节尚不清楚,对于游离基因的来源、数量、维持机制、具体存在形式、游离基因如何复制、如何鉴定具体的游离基因、游离基因的进化机制等可能的科学问题均有待进一步研究。跨物种核移植胚胎可在早期发育但不能发育至更晚时期的可能原因之一就是因为游离基因的保守性较低、具有高度的物种特异性。事实上,在超越单纯的基因组 DNA 层次上,遗传信息单位的形式已从概念上得到了极大的拓展,目前已出现从基于 DNA序列信息的传统等位基因(allele)向广义生物等位基因(bioallele)发展的趋
6、势,包括表观等位基因(epiallele)(Johannes et al.,2008)、转录等位基因(transcriptallele)、蛋白等位基因(proteallele)、代谢等位基因(metaboallele)以及生理等位基因(physiallele)等一些广义生物等位基因的新概念。随着生命科学日新月异的发展,一些更新的基因形式将可能被发现或提出来,比如笔者认为,新出现的元基因组(metagenome)概念甚至可能催生跨个体、跨种的 metagene 出现。在可以预期的未来,生命科学的一个重要研究内容就是不断发现新的基因形式,并深入探索这些新的遗传信息单位(即新的基因形式)的特性及其参
7、与生命过程的调控机制。真核细胞的基因结构在遗传学上通常将能编码蛋白质的基因称为结构基因。真核生物的结构基因是断裂的基因。一个断裂基因能够含有若干段编码序列,这些可以编码的序列称为外显子。在两个外显子之间被一段不编码的间隔序列隔开,这些间隔序列称为内含子。每个断裂基因在第一个和最后一个外显子的外侧各有一段非编码区,有人称其为侧翼序列。在侧翼序列上有一系列调控序列(图 3-3),主要包括启动子、增强子、终止子等。启动子启动子主要包括以下两个序列:在 5端转录起始点上游约 2030 个核苷酸的地方,有 TA TA框(TATA box)。TA TA框是一个短的核苷酸序列,其碱基顺序为 TATAA TA
8、AT。TATA框是启动子中的一个顺序,它是 RNA聚合酶的重要的接触点,它能够使酶准确地识别转录的起始点并开始转录。当 TA TA框中的碱基顺序有所改变时,mRNA 的转录就会从不正常的位置开始。在 5端转录起始点上游约 7080 个核苷酸的地方,有 CAA T 框(CAAT box)。CAA T 框是启动子中另一个短的核苷酸序列,其碱基顺序为 GGCTCAA TCT。CAAT 框是 RNA 聚合酶的另一个结合点,它的作用还不很肯定,但一般认为它控制着转录的起始频率,而不影响转录的起始点。当这段顺序被改变后,mRNA的形成量会明显减少。增强子在 5端转录起始点上游约 100 个核苷酸以远的位置
9、,有些顺序可以起到增强转录活性的作用,它能使转录活性增强上百倍,因此被称为增强子。当这些顺序不存在时,可大大降低转录水平。研究表明,增强子通常有组织特异性,这是因为不同细胞核有不同的特异因子与增强子结合,从而对不同组织、器官的基因表达有不同的调控作用。例如,人类胰岛素基因 5末端上游约 250 个核苷酸处有一组织特异性增强子。在胰岛素 细胞中有一种特异性蛋白因子,可以作用于这个区域以增强胰岛素基因的转录。在其他组织细胞中没有这种蛋白因子,所以也就没有此作用。这就是为什么胰岛素基因只有在胰岛素 细胞中才能很好表达的重要原因。终止子在 3端终止密码的下游有一个核苷酸顺序为 AA TAAA,这一顺序
10、可能对 mRNA 的加尾(mRNA 尾部添加多聚A)有重要作用。这个顺序的下游是一个反向重复顺序。这个顺序经转录后可形成一个发卡结构(图 3-4)。发卡结构阻碍了RNA聚合酶的移动。发卡结构末尾的一串 U 与转录模板 DNA 中的一串 A 之间,因形成的氢键结合力较弱,使mRNA与DNA杂交部分的结合不稳定,mRNA就会从模板上脱落下来。同时,RNA聚合酶也从DNA上解离下来,转录终止。AA TAAA顺序和它下游的反向重复顺序合称为终止子,是转录终止的信号。原核细胞的基因结构原核生物的基因结构多数以操纵子形式存在(见课本第二节中的乳糖操纵子),即完成同类功能的多个基因聚集在一起,处于同一个启动
11、子的调控之下,下游同时具有一个终止子。两个基因之间存在长度不等的间隔序列,如与乳糖代谢有关酶的基因。在距转录起始点-35 和-10(转录起始点上游的核苷酸序列为“-”,下游的核苷酸序列为“+”)附近的序列都有 RNA聚合酶识别的信号。RNA聚合酶先与-35 附近的序列(称为 Pribnow 框)结合,然后才与-10附近的序列(称为 Sextama 框)结合。至于RNA聚合酶是如何从一个位置转到另一个位置的,目前尚不清楚。RNA聚合酶一旦与-10附近序列结合,就立即从识别位点上解离下来,DNA 双链解开,转录开始。除启动子外,往往还有一些调控转录的其他因子,如调节基因和操纵基因。原核生物基因转录
12、终止之前同样有一段回文序列结构,称为终止子,它的特殊的碱基排列顺序能够阻碍 RNA聚合酶的移动,并使其从 DNA模板链上脱离下来。基因组研究的基本方法:物理图谱(基因组研究的基本方法:物理图谱(physical mapphysical map)物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的 DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。DNA 物理图谱是指 DNA链的限制性酶切片段的排列顺序,即酶切片段在 DNA链上的定位。因限制性内切酶在 DNA链上的切口是以特异序列为基础的,核苷酸序列不
13、同的 DNA,经酶切后就会产生不同长度的 DNA片段,由此而构成独特的酶切图谱。因此,DNA 物理图谱是 DNA 分子结构的特征之一。DNA 是很大的分子,由限制酶产生的用于测序反应的 DNA 片段只是其中的极小部分,这些片段在 DNA链中所处的位置关系是应该首先解决的问题,故 DNA 物理图谱是顺序测定的基础,也可理解为指导 DNA测序的蓝图。广义地说,DNA测序从物理图谱制作开始,它是测序工作的第一步。制作 DNA物理图谱的方法有多种,这里选择一种常用的简便方法标记片段的部分酶解法,来说明图谱制作原理。用部分酶解法测定 DNA物理图谱包括二个基本步骤:(1)完全降解选择合适的限制性内切酶将
14、待测 DNA链(已经标记放射性同位素)完全降解,降解产物经凝胶电泳分离后进行自显影,获得的图谱即为组成该 DNA 链的酶切片段的数目和大小。(2)部分降解以末端标记使待测 DNA的一条链带上示踪同位素,然后用上述相同酶部分降解该 DNA链,即通过控制反应条件使 DNA链上该酶的切口随机断裂,而避免所有切口断裂的完全降解发生。部分酶解产物同样进行电泳分离及自显影。比较上述二步的自显影图谱,根据片段大小及彼此间的差异即可排出酶切片段在 DNA链上的位置。下面是测定某组蛋白基因 DNA物理图谱的详细说明。完整的物理图谱应包括人类基因组的不同载体 DNA克隆片段重叠群图,大片段限制性内切酶切点图,DN
15、A片段或一特异 DNA序列(STS)的路标图,以及基因组中广泛存在的特征型序列(如 CpG 序列、Alu序列,isochore)等的标记图,人类基因组的细胞遗传学图(即染色体的区、带、亚带,或以染色体长度的百分率定标记),最终在分子水平上与序列图的统一。基本原理是把庞大的无从下手的 DNA先“敲碎”,再拼接。以Mb、kb、bp 作为图距,以DNA探针的 STS(sequencetags site)序列为路标。1998 年完成了具有 52,000 个序列标签位点(STS),并覆盖人类基因组大部分区域的连续克隆系的物理图谱。构建物理图的一个主要内容是把含有 STS 对应序列的DNA的克隆片段连接成
16、相互重叠的“片段重叠群(contig)”。用“酵母人工染色体(YAC)作为载体的载有人 DNA片段的文库已包含了构建总体覆盖率为 100%、具有高度代表性的片段重叠群”,近几年来又发展了可靠性更高的 BAC、PAC库或 cosmid 库等。DNADNA测序技术:测序技术:Sanger 法测序的原理就是利用一种DNA 聚合酶 来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于 ddNTP 缺乏延伸所需要的 3-OH 基团,使延长的寡聚核
17、苷酸选择性地在G、A、T 或 C 处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs 和 ddNTPs 的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。基因组注释基因组注释(Genome annotation)是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。
18、从基因组序列预测新基因,现阶段主要是 3 种方法的结合:(1)分析 mRNA 和 EST数据以直接得到结果;(2)通过相似性比对从已知基因和蛋白质序列得到间接证据1 ;(3)基于各种统计模型和算法从头预测。对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释:(1)序列数据库相似性搜索;(2)序列模体(Motif)搜索;(3)直系同源序列聚类分析(Cluster of orthologousgroup,COG)2 。随着微生物全基因组序列测定速率的加快,开发有 Web 接口的高效、综合基因组注释系统十分要。近年来,国际上已有一些这样的工具,如基于 Java
19、 的微生物基因组数据库接口。尽管 JMGD 提供了一个很好的图形化接口程序,却并不具有基因组自动注释功能。德国国家环境和健康研究中心开发的蛋白质摘录、描述和分析工具(Protein extrac2tion,description,and analysistool,PEDANT)是大型基因组分析系统,整合了大量基因组功能信息和结构信息。PEDANT 注释功能强大3 ,适用范围广,但没有便于操作的图形界面,而且需要较强的硬件系统支持。目前,微生物基因组全序列测定通常由中小实验室独立完成,有必要开发和集成基于 PCPLinux 系统并以免费数据库管理系统、免费软件和公共数据库资源为主的基因组信息注释
20、系统。GCGC 含量含量:在 DNA4 种碱基中,鸟嘌呤和胞嘧啶所占的比率称为GC 含量。在双链 DNA 中,腺嘌呤与胸腺嘧啶(A/T)之比,以及鸟嘌呤与胞嘧啶(G/C)之比都是 1。但是,(A+T)/(G+C)之比则随 DNA 的种类不同而异。、GC 含量愈高,DNA 的密度也愈高,同时热及碱不易使之变性,因此利用这一特性便可进行DNA 的分离或测定。基因组重复序列分类:基因组重复序列分类:组成基因组的 DNA顺序,根据其重复的频度可分为三类。一是基因组只有一个复制顺序的单一 DNA,二为高度重复顺序(highly repetitivesequence),由较短的顺序 105107 次直线连
21、结而成,其中含随体 DNA等。第三为中等程度的重复顺序(moderately repetitive sequence),为有 300500 个核苷对的大致相同的顺序例如在将哺乳类的 DNA 用限制酶 AluI(AGCT)切断时所产主的主要片断中所见到的高频率(105)的顺序(AluIfamily)与单一 DNA 一起分散存在的,以及像核糖体 RNA 基因或组蛋白基因群那样的多次成直线相连存在的(多基因群)都包含在这一类中。此外有在反方向上重复的顺序(inverted repetitive sequence),其变性 DNA折叠成发夹结构(hairpinstructure,foldback st
22、ructure,snapback structure),在编码分析中可迅速再结合的类型。1.高度重复序列重复几百万次,一般是少于 10 个核苷酸残基组成的短片段。如异染色质上的卫星 DNA。它们是不翻译的片段。在小鼠中约占基因组的 10。(重复序列是为了大量合成蛋白质和核酸)2.中度重复序列重复次数为几十次到几千次。在小鼠中约占 20。如 rRNA 基因、tRNA 基因和某些蛋白质(如组蛋白、肌动蛋白、角蛋白等)的基因。3.单一序列在整个基因组中只出现一次或少数几次的序列,在小鼠中约占基因组的 70。如珠蛋白基因、卵清蛋白基因、丝心蛋白基因等。实验证明,所有真核生物染色体可能均含重复序列而原核
23、生物一般只含单一序列。高度和中度重复序列的含量随真核生物物种的不同而变化。密码子特点规律:密码子特点规律:每个密码子三联体(triplet)决定一种氨基酸理化性质相近的氨基酸的密码子排列较近,有利于在基因突变时不大影响蛋白质的性质。mRNA上的密码子是连续的,两个密码子间无任何成分分隔,即无间断讯号特点特点.遗传密码子是三联体密码:一个密码子由信使核糖核酸上相邻的三个碱基组成。密码子具有通用性:不同的生物密码子基本相同,即共用一套密码子。遗传密码子无逗号:两个密码子间没有标点符号,密码子与密码子之间没有任何不编码的核苷酸,读码必须按照一定的读码框架,从正确的起点开始,一个不漏地一直读到终止信号
24、。遗传密码子不重叠,在多核苷酸链上任何两个相邻的密码子不共用任何核苷酸。密码子具有简并性:除了甲硫氨酸和色氨酸外,每一个氨基酸都至少有两个密码子。这样可以在一定程度内,使氨基酸序列不会因为某一个碱基被意外替换而导致氨基酸错误。密码子阅读与翻译具有一定的方向性:从 5端到 3端。有起始密码子和终止密码子,起始密码子有两种,一种是甲硫氨酸(AUG),一种是缬氨酸(GUG),而终止密码子(有 3 个,分别是 UAA、UAG、UGA)没有相应的转运核糖核酸(tRNA)存在,只供释放因子识别来事先翻译的终止。在信使 RNA中,碱基代码 A 代表腺嘌呤,G 代表鸟嘌呤,C 代表胞嘧啶,U 代表尿嘧啶(注意
25、:RNA与 DNA 不同,RNA没有胸腺嘧啶 T,取而代之的是尿嘧啶 U,按照碱基互补配对原则,U 与 A 形成配对)。RNARNA世界:世界:RNA不仅可以是信息的携带者,还可以是功能的执行者,这使科学家们想到原始的生物世界可能是一个只由RNA组成的“RNA 世界”。因发现 RNA具有催化和自复制(不同于病毒 RNA的自复制)功能而提出的一种假说,认为生物进化过程中,最早出现的生物大分子是 RNA,而不是 DNA 和蛋白质,即在进化某个阶段有一个“RNA 世界”。细胞器的起源:细胞器的起源:关于真核细胞细胞器的起源问题,仍然是生物学领域的一个不解之迷,很多学者提出了不同的见解,其中内共生学说
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内