破解遗传密码
这篇书评可能有关键情节透露
18世纪至19世纪早期,对多指(长出额外的手指)等身体特征以及贝克韦尔的选育法的探究终于使思想家们相信,有一种力量在其中发挥作用,他们将它定义为“遗传”。眼下面临的难题是,如何找出纳普的问题的答案——继承下来的是什么,又是怎么继承的?这个问题在今天的我们看来显得无比直白,但在当时却处于人类知识的最前沿,“遗传”(heredity)和“继承”(inheritance)这两个词当时刚具备生物学方面的含义。
1865年格雷戈尔·孟德尔(Gregor Mendel)在演讲中指出,在豌豆当中,遗传是基于世代相继的因子的。在很长的一段时间里,没有人认识到孟德尔的发现的重要意义,他的研究被遗忘了近20年。但在1900年,三位欧洲科学家——卡尔·科伦斯(Carl Correns)、雨果·德弗里斯(Hugo de Vries)和埃里克·冯·切尔马克(Erich von Tschermak)——或是重复了孟德尔的实验,或是读了他的论文,之后便致力于宣传他的发现。
遗传学的世纪开始了。
1909年,威廉·约翰森(Wilhelm Johannsen)创造了“基因”(gene)这个术语,来指代决定遗传性状的因子。至于说基因是由什么物质构成的,这个问题仍然完全是个谜。1919年,摩尔根探讨了两种可能性,但两者都不令他满意。
摩尔根在诺贝尔奖讲座中坦言:“关于基因是什么,遗传学家目前没有共识——不知道它们是真实的存在,还是纯属虚构。”摩尔根认为,之所以像这样缺乏共识,是因为“以遗传学实验目前的水平,无论基因是假想的遗传单元还是物质微粒,都不会造成一丁点区别。任何一种情况下,这个单元都与某条特定的染色体联系在一起,并且是可以通过纯粹的遗传学分析来定位的”。
1926年,赫尔曼·穆勒朝着证明基因确实是物质实体迈出了一步,他的研究表明,X射线能够诱发突变。苏联遗传学家尼古拉·科尔佐夫(Nikolai Koltsov)在1927年发表的一篇对“遗传性分子”本质的讨论中,认为基因的——因此也是染色体的——基本特性是在细胞分裂时完美复制自己的能力。1937年,英国遗传学家J. B. S. 霍尔丹(J. B. S. Haldane)提出了一个类似的观点,认为遗传物质的复制可能涉及一个分子经过复制,生成原分子的“阴性”拷贝的过程。
20世纪30年代,对于搞清楚基因是由什么组成的,大多数遗传学家并没有特别大的兴趣。他们更感兴趣的是发现基因究竟有哪些能耐。
在1943年2月的第一个星期五,诺贝尔奖得主、物理学家埃尔温·薛定谔(ErwinSchrödinger)在圣三一大学进行了一场讲座,讲座的题目叫作“生命是什么?”。
连续三个星期五,56岁的薛定谔都走进菲茨杰拉德楼的报告厅开展讲座,他在讲座中探讨了量子物理学与生物学的近期发现之间的关系。
在与听众探讨遗传的本质时,薛定谔不得不给出一个基因具体包含哪些成分的解释。除了逻辑推演,薛定谔没有其他东西支持自己的假说——染色体“以某种密码脚本的形式,囊括了生命个体未来的发育模式以及成熟阶段的运作模式”。这是第一次有人明确指出基因可能含有密码,或者干脆本身就是一种密码。
薛定谔的书启迪了一代青年科学家。发现DNA结构的工作获得诺贝尔奖的詹姆斯·沃森、弗朗西斯·克里克和莫里斯·威尔金斯都声称《生命是什么?》在他们各自通往双螺旋的旅程中扮演了重要的角色。
1940年,香农在“理论遗传学的代数算法”这个课题上读完了博士,他发展出了一套描述基因在种群中的扩散方式的数学方法。他主要关注的是用统计学来描述基因在种群中的行为,不是它们行使功能的方式和它们的构成。香农更感兴趣的是信息交流的本质和描述它的数学方法了。
1943年4月,埃弗里首次从基因角度明确阐述了肺炎双球菌的转化问题。
如果我们是对的,当然,这还没被证实,那就意味着核酸不仅在结构上重要,更是决定细胞的生化活动和特定特征的功能活性物质——而且,通过一种已知的化学物质,我们有可能在细胞中诱导可以预知的遗传性状的改变。这是遗传学家们长久以来的梦想……听起来像是一种病毒——也许是基因吧……
埃弗里和麦卡蒂花了两个月,将自己的发现写成论文发表。他们给出的研究结果非常翔实,而且他们认定转化要素是DNA是基于多线的证据。在随后的论文中,埃弗里和麦卡蒂没有解释DNA是如何呈现特异性的。他们没有用“密码”这个词,也没有使用任何类似密码这一概念的说法,但他们还是清晰地指出,DNA里一定有什么东西赋予了基因如此之大的多样性。
1945年,香农为在一份名为《密码术的数学原理》的文件中总结了自己对信息交流及其所涉及的内容的观点。他将被交流的东西称为“信息”(information),并描述了其基本单位的本质,他把这种基本单位称为“比特”。
1946年3月在一场名为“生物学及社会科学中的反馈机制和循环因果系统研讨会”的会议上,维纳和冯·诺伊曼提出了他们开发电子计算脑(electronic computer brain)的计划。
维纳指出,主宰信息交流的法则与热力学第二定律“事实上是相同的”。因此,举例来说,一条消息一旦生成,后续的操作就只能将它消解,而不能增加其中的信息。熵的箭头只能指向一个方向,生命所能做到的一切不过是让这个过程暂时停止,并不能真正将其逆转。战后的科学界用来解释生物学现象的主要理论框架之一——信息在生物学中的地位——正在浮现,并且与宇宙尺度上对秩序的基本度量成功对接了。
一个月后,在把生命如何自我复制的观点与控制系统研究联系起来的工作上,冯·诺伊曼迈出了一步。他觉得他们首先必须理解生物学现象背后的分子机制,然后才能有希望理解更高层面的生命活动。冯·诺伊曼向维纳提议,他们应该研究“病毒和噬菌体的生理学,以及有关基因和酶之间关系的一切已知学问”。冯·诺伊曼之所以对基因产生兴趣,是因为生命拥有令他着迷的一大特质——自我复制的能力。
1944年到1947年间,有超过250篇关于核蛋白和核酸的科研论文发表——大致与抗生素这个新领域的数量相当——其中多数探究的是核酸的性质和功能,而非蛋白质的。1946年至1948年间,有四场国际学术会议聚焦于这个问题。核酸的结构和功能正在成为战后最炙手可热的科学议题。
1946年7月,实验生物学会在剑桥举办了一场关于核酸的研讨会。在剑桥的会议上,阿斯特伯里展示了DNA的X射线图像。阿斯特伯里给出了史上第一个DNA结构模型并解释道:
在任何探索复杂分子的结构的过程中,一个无法长期回避的考验是在已知大小和键间角度的基础上尝试构建一个精确的原子模型。化学式不过是一个简便的写法,看到一个分子在立体空间中的样子永远都具有揭示性的意义,而且常常令人吃惊不已。
1948年,布瓦万提出了所有基因都由DNA构成的观点,查加夫给出了核酸的特异性与碱基序列有关的假说,而莱德伯格则在极力向同行们主张,弄清转化要素的特性是生物学的核心任务。
到20世纪40年代末,支持DNA在遗传中发挥根本性作用这一假说的力量已经有了很大的增长。一些科学家反对DNA假说的背后,有着浓重的个人原因。卢里亚后来回忆说:“我认为我们没有把基因是蛋白质还是核酸这个问题看得很重,我们眼中重要的事是基因具备其必须具备的特性。”
诺伯特·维纳1948年的科学畅销书《控制论:或关于在动物和机器中控制和通信的科学》向公众普及了二战期间开展的对控制系统和负反馈的研究,向整个科学界——尤其是生物学——推广了这种新兴的研究手段。它还催生了一些新的信息术语,极大地改变了战后的世界,并塑造了一套翻天覆地的遗传学观点。
《控制论》的核心观点是,所有控制系统以及蕴含其中的负反馈都是基于信息流的。维纳认为,信息是所有系统的核心——无论是机械系统、电子系统还是生命系统——而这与物理学家熵的概念关联甚密。5年前,薛定谔曾指出,生命过程是“逆熵过程”,因为它有暂时对抗热力学第二定律的能力。现在,维纳正在将这个概念推广到所有信息上:
我们此处定义为信息量的这个量,是相似情况下通常定义为熵的那个量的负值。
维纳和香农的思想对科学界产生了重要的影响。信息开始被视为物质的一个可以量化的特征,量化的最佳手段是二进制编码,而控制和负反馈则似乎成了生命和机械系统的基础特性。这些思想影响生物学家的方式之一是为创造自动机,进而测试生命体运作和繁衍的模型提供了可能性。
亨利·夸斯特勒胆子更大。1952年3月,他组织了一场有关生物学中的信息理论的研讨会。研讨会上的发言者展示了科学家们正在如何将信息的新概念应用于生物学当中。
到1953年2月底,沃森和克里克已经在双螺旋模型的基本轮廓上达成了一致。

4月,在比利时举行的索尔韦会议上,劳伦斯·布拉格爵士首次公开宣布了这项发现。在剑桥就见过这个模型的鲍林告诉与会者,沃森和克里克的模型“很可能基本正确”。4月25日,三篇论文在《自然》杂志上发表的那天,国王学院举办了一场派对。
碱基的互补配对为基因的复制机制提供了一个呼之欲出的领悟:有一个DNA分子,就可能创造出两个一模一样的子代分子,只需要依据互补配对原则把DNA分子的每条链复制一遍。比这还重要的是这三篇发表在《自然》杂志上的论文没有提到的——它们都没有涉及基因的工作方式,也没有提到碱基序列的重要性。世上还是没有遗传密码。
1953年5月30日 克里克 与沃森合作发表在《自然》杂志上的第二篇论文中,写到:
我们模型中的磷酸-脱氧核糖骨架完全是规则的,但任何成对碱基的序列都能被置于这个结构当中。由此可以得知,在一个长分子里,可能存在很多不同的排序。因此,似乎碱基的准确序列就是携带遗传信息的密码。
DNA序列包含“承载遗传信息的密码”这一观点的引入,一整套概念性的新词汇出现了。基因不再是特异性的神秘化身,它们是信息——一段密码——可以被传输(另一个源自电子时代的词汇)。而其中的核心假说是,密码由一系列字母——A、T、C和G构成。这种密码究竟如何发挥作用,它可能表征什么,这些问题此时都还没有被阐明。然而,这个克里克和沃森如此漫不经心地使用的词,改变了科学家们谈论和思考基因的方式。最终,在这套新词汇的帮助下,基因与电子通信和处理之间得以建立起一种新的类比。
在研究遗传密码的这个阶段中,伽莫夫的角色是奠基性的。通过将一群形形色色的人聚到一起,他为这个项目赋予了形体。1955年10月,他在《科学美国人》上发表了一篇文章《活细胞中的信息传导》,文章开篇便以一种激进的新眼光描述了生命的基本单位,其写法绝对能吸引读者。他写道:“活细胞的细胞核是一个储存信息的仓库。”伽莫夫总结了科学界提出的各种关于编码的构想,并向读者展示了遗传密码的相关工作与其他正在发生的科学大变革——计算机和控制论的发展——有何种关联。
1957年9月,弗朗西斯·克里克在伦敦大学学院(University College London)做了一次报告。报告形成了两篇文章——一篇与报告同时发表,刊登在《科学美国人》上,另一篇更加详尽,发表在1958年出版的研讨会论文集上。克里克的出发点是他的一个假设:基因的职能是控制蛋白质的合成。不过他和蔼而坦率地表示,“这一观点的实际证据相当匮乏”:
我希望……提出这样一个观点,遗传物质的主要功能是控制(但未必是直接控制)蛋白质的合成。支持这一观点的直接证据有那么一点点,但在我的内心里,提出这个假说的思想动机暂时与这些证据无关。蛋白质核心、独一无二的地位一旦得到认可,似乎就没什么道理再说基因承担的是其他功能了。
在报告中,克里克公开描述了自己与布伦纳发展起来的一个想法:一定存在一类未知的,被他们称为转接器的小型分子,这些分子能够搜罗起全部20种氨基酸,并将它们带到核糖体,从而使蛋白质在那里被合成。与此同时,在大西洋的彼岸,霍格兰和查美尼克正在分离一种后来被证明是克里克的转接器的物质——它最终被称为转运RNA或者tRNA。
克里克用了一个容易记住的术语来描述基因的一项基本特征:他概述了自己所谓的遗传学的“中心法则”(central dogma)。对于这条法则,克里克解释说:
信息(此处意味着一条决定单元序列的消息)一旦被输入一个蛋白质分子,就不会再转出,无法形成这个分子的拷贝,也无法影响一条核酸的构架。然而这个观点尚未被普遍接受。
克里克的理论框架——从信息流的角度看待基因和蛋白质——很快被科学界接受了,成了理解细胞基础生理过程的方式。“中心法则”报告强调,破解遗传密码的竞赛与理解蛋白质合成的努力是密切相关的。
20世纪50年代后期的三项研究为未来指明了道路:梅塞尔森和斯塔尔证明DNA可以被标记并逐代追踪,本泽那一丝不苟的工作揭示了通过探索最细微的组分来探查基因的分子结构是可能的,而英格拉姆的发现——血红蛋白基因的镰状细胞突变会改变单个氨基酸——则提醒我们,遗传密码的内在本质或许是可以触及的
1961年5月,布伦纳、雅各布和梅塞尔森的论文发表在了《自然》杂志上,他们发现了“从基因携带信息到核糖体以合成蛋白质的一种不稳定媒介”。这个媒介就是信使RNA。DNA如何输出遗传信息的故事完整了。
随着信使RNA被发现,蛋白质合成的机制变得更加清晰了。最重要的是,基因如今已经不再只被视作能够产生蛋白质,而是还会控制一个协作单元。
雅各布和莫诺指出,基因不单纯是一堆蓝图。相反,它们包含决定基因表达的物质和时间格局的程序,并且还能与环境相互作用。这项论断是时隔20年后对薛定谔理论见解的证明,从此为生物学定下了基调。
1961年5月27日,海因里希·马特伊读出了生命之书的第一个“单词”。多聚(U)编码的是苯丙氨酸。第五届国际生物化学大会于1961年8月10日至16日在莫斯科举行。尼伦伯格在会上介绍了他的发现。听众当时对尼伦伯格宣告的结果震惊不已——克里克后来将之形容为“触电般的感觉”。
它让一些研究这个领域的人产生了一种急不可耐的冲动,想要赶紧离开莫斯科,回到实验室去。
尼伦伯格和马特伊的论文于10月发表在了《美国科学院院刊》上,一场为破解剩余的遗传密码而狂飙突进的科学竞赛开始了。
回到剑桥大学后,克里克便下定决心要解决研究者们争论不休的那个问题:遗传密码是不是由3个碱基组成的。他的发现于1961年12月末被发表在了《自然》杂志上,论文的标题满含克里克的敏锐眼光——《蛋白质遗传密码的共通本质》。论文包含4项基本结论,今天,全世界的中学教室和大学报告厅里教的都是这些: (a)三个一组的碱基……编码一个氨基酸。 (b)密码不重叠。 (c)碱基序列从一个固定的起始点开始读取…… (d)密码很可能是“简并”的,也就是说,一般来说,一个特定的氨基酸可以被好几种三联碱基中的任意一种编码。
到1965年年中,尼伦伯格的研究组已经识别出了64种RNA密码子中的54种的功能。大约同一时期,科拉纳也用已知序列的人工合成密码子证实了这些结果。让所有人惊讶的是,有研究者在1966年发现,编码甲硫氨酸的唯一密码子——AUG——如果处在一段序列的开头,就会同时起到起始密码子的作用。遗传密码64个“单词”中的最后一个直到1967年才被解读出来,弗朗西斯·克里克是论文的共同作者之一,这显得合情合理。这个密码子是欧珀密码子——UGA。与琥珀密码子和赭石密码子一样,它的意思是“终止”。
这一阶段的这些科学发现改变了整个生物学,并使我们在新型医疗手段的开发上取得了巨大的进步。在掀起一场知识革命的同时,将埃弗里和薛定谔的时代与克里克、尼伦伯格、雅各布和莫诺的时代分开的这22年也引发了我们思想的一场革命。今天,每个人都知道基因含有信息,知道它们作为复杂网络的一部分发挥着作用,控制着蛋白质的合成和其他基因的活动。
最近几十年间,由于生物学历史上最重要的技术变革之一——测定DNA和RNA分子序列的能力——遗传密码研究的形态已经发生了翻天覆地的变化。
这项技术有几个不同的名字:链终止法、双脱氧测序法,或者更直白地被称为桑格测序法。桑格1977年描述这一方法的论文被引用了65000多次,这是一个令人瞠目的数据,让它成为科学史上被引用次数第四多的论文。
1978年,桑格和他的同事用这项技术测定了历史上第一套全基因组序列。这是一种噬菌体的基因组,有5386对碱基,整个工作耗时好几个月。
桑格法在20世纪80年代末得到了广泛的应用,这要归功于能在试管中扩增少量DNA样品的聚合酶链式反应(PCR)的发展。这一方法是凯利·穆利斯(Kary Mullis)发明的,在PCR的过程中,需要先将一份样品加热到很高的温度(高达95℃),这会让互补的DNA双链分开。接下来,将样品稍稍降温,DNA聚合酶就会开始复制DNA分子,互补的双链将配对起来。一个循环会让样品中的DNA含量加倍。将这个加热和降温的循环重复几十次,即使是微量的DNA也能在两个小时内被扩增几百万倍。
DNA技术的实际应用真正起飞是在1984年,这一年,莱斯特大学的亚历克·杰弗里斯(Alec Jef reys)发现了可以被轻易识别,代表每个生命个体并且独一无二的小片段DNA“指纹”。DNA指纹技术现在已经融入司法系统的日常应用中,可以用于给罪犯定罪,也可以为受到错误指控的人洗脱罪名。警方对DNA样品的例行化采集,以及个人身份识别数据库的存在,引发了持续不断、围绕自由与正义之间的矛盾的道德争议。
到20世纪80年代末,机器已经能够读取DNA序列了。20世纪90年代初,这些技术发展让人类开启了一系列多细胞生物基因组的测序计划,其最终目标是测定人类基因组的序列。人类基因组草图于2001年以两个版本发表:赛莱拉公司的结果刊登在《科学》杂志上,而公共资金赞助的结果则发表在《自然》上。
自21世纪初和人类基因组计划胜利实施以来,基因组测序已经从一项高度复杂、人力财力耗费巨大的国际事业,转变为了一种对极冷门的生命体感兴趣的小型研究团队也能开展的工作。这种变化的背后是所谓第二代测序技术的出现,其基础是人类基因组测序完成后发展起来的机器人技术和强大的计算机。
2010年,中国科学家利用第二代测序技术,只花了区区90万美元——每个碱基不到0.04美分,或者说人类基因组测序花费的1/2500——就分析了大熊猫基因组的23亿对碱基。整个项目耗时不到一年,所用设备量只相当于30台测序仪。截至2014年底,仅非人类脊椎动物的测序项目就有超过700个。
我们对个体间细微的遗传差异——被称为种内变异(intraspecific variation)——重要性的理解正在随着全世界的政府和科研机构意识到它对健康的益处而增加,同样增长的还有我们对人类族群的历史和人口统计学的认识。
古基因组学,它的出现掀起了一股针对已灭绝生物的演化基因组学研究浪潮,这些研究尤其着眼于人类支序中与我们最近的亲戚——尼安德特人。
尼安德特人基因组的测序是一项技术上的绝活,并且为人类历史提供了令人震惊的信息。它揭示了让包括帕博在内的每个人都惊讶的事实:在历史上的某个时间点,尼安德特人曾与人类交配。
“表观遗传”指的是遗传密码在从细胞中的DNA序列到一项表达出来的性状的路径上得到调整的任何方式,也就是基因如何被调控。表观遗传效应最为广泛的存在形态解释了基因如何在我们的细胞中被开启和关闭,让各种具体的细胞类型得以出现,从而使一个单细胞的胚胎发育成一个具备众多不同类型组织的生命体。表观遗传效应在一些癌症的病程发展中尤为重要:某些基因在正常情况下会将那些可能导致生长失控的基因沉默掉,但这些基因自身也可能被来自环境的表观遗传效应沉默掉,从而导致癌症。
哺乳动物经常表现出一种特殊形式的代际传播表观遗传效应,叫作基因组印记(genomic imprinting)。我们会从父母双方那里各继承同一基因的一份拷贝,在某些情况下,其中一方的拷贝会被表观遗传标记或基因组印记沉默掉(在更罕见的情况中,是被增强),从而使另一方基因的表型出现在下一代中。
第一位系统评述遗传信息概念的评论家是生物学方面的哲学家,得克萨斯大学奥斯汀分校的萨霍特拉·萨卡尔(Sahotra Sarkar)。在萨卡尔看来,遗传信息“有点更像是一则伪装成理论概念的比喻”。在萨卡尔看来,遗传信息因此没能通过他所谓的差异特异性逆转测试(test of reverse dif erential specifi city),他还认为这个概念已经不再是发现世界的一个有用工具了。萨卡尔将它表述得很简洁:“归根结底,DNA是一种分子,不是一门语言。”用彻底的类比、严格的定义和与人工系统一丝不差的平行对比来解读遗传密码几乎注定会失败,因为遗传密码和生物学所有其他方面一样,不是人为设计出来的。它是生命的一部分,通过演化而来,只能在历史和生物学的背景下才能被正确理解。
在一些哲学家看来,将基因的内容描述为信息,说明DNA以一种绝对权威、无须媒介传导的方式决定着一个生命体的全部性状。这种评述是一种误解,因为在现实中,即使有,也只是极少的科学家持这种极端的观点。
在很多情况下,基因并不是生物学现象的最终决定因素或者原因。基因需要自己创造的细胞来将它们包含的条件性指令付诸实施,同时还需要环境满足相应的条件。然而,在相似的条件下,将倾向于产生相似的效果。这些效果将如何潜移默化地影响整个生命体的结构、生理和行为,可能是无法预测的,这让我们很难将一个特定的基因和一个特定的性状联系在一起。
控制论和信息理论对遗传学的影响就可以这样看待。20世纪四五十年代,这两种彼此相关的手段对生物学的整体发展产生了巨大的影响,对分子遗传学的影响尤为深远。最终,因为没能给出一个激发未来发现的理论框架,它们的影响力消退了。两种观点的结局,是作为生动的类比和看待世界的方式影响着遗传学,而不是成为必要的理论基石。


