氨基酸序列 查找蛋白
四种DNA字母要编码20种氨基酸。绝不可能是一对一编码,也不可能是二对一编码,因为两个字母最多只能组成16种组合(4×4)。因此,最低要求是三个字母,也就是DNA序列里面最少要有三个字母对应到一个氨基酸,被称为三联密码,后来被克里克和西德尼·布伦纳证实。
但是这样看起来似乎很浪费,因为用四种字母组成三联密码,总共可以有64种组合(4×4×4),这样应该可以编码64个不同的氨基酸,那为什么只有20种氨基酸呢?一定有一个神奇的答案来解释为什么4种字母,3个一组,拼成64个单词,然后编码20种氨基酸。
1952年,沃森就曾写信告诉克里克:“DNA合成信使RNA(mRNA), mRNA合成蛋白质。”克里克开始研究这一小段mRNA的字母序列,如何翻译成蛋白质里面的氨基酸序列。他认为mRNA可能需要一系列“适配器”来帮助完成翻译,每一个适配器都负责携带一个氨基酸。当然每一个适配器一定也是RNA,而且都带有一段“反密码子”序列,这样才能和mRNA序列上的密码子配对。
适配器分子也由RNA分子组成。它们现在叫作“转运RNA”或tRNA。现在整个工程变得有点像乐高积木,一块块积木接上来又掉下去,一切顺利的话,它们就会这样一个接一个地搭成精彩万分的聚合物。
随着实验技术进步而且越来越精密,在20世纪60年代中期许多实验室陆续解开了序列密码。然而经过一连串不懈的译码工作后,大自然却好像随兴地给了个潦草结尾,让人既困惑又扫兴。遗传密码子的安排一点也不具创意,只不过“简并”了(意思就是说,冗余)。有三种氨基酸可对应六组密码子,其他的则各对应一到两组密码子。每组密码子都有意义,还有三组的意思是“在此停止”,剩下的每一组都对应一个氨基酸。这看起来既没规则也不美,根本就是“美是科学真理的指南”这句话的最佳反证。甚至,我们也找不出任何结构上的原因来解释密码排列,不同的氨基酸与其对应的密码之间似乎并没有任何物理或化学的关联。
克里克称这套让人失望的密码系统为“冻结的偶然”,而大部分人也只能点头同意。他说这个结果是冻结的,因为任何解冻(试图去改变密码对应的氨基酸)都会造成严重的后果。一个点突变也许只会改变几个氨基酸,而改变密码系统本身却会从上到下造成天大灾难。就好似前者只是一本书里无心的笔误,并不会改变整本书的意义,然而后者却将全部的字母转换成毫无意义的乱码。克里克说,密码一旦被刻印在石板上,任何想改动它的企图都会被处以死刑。这个观点至今仍有许多生物学家认同。
基因序列组成
基因组测序工作完成后,哪些基因能翻译蛋白、能翻译哪些蛋白,一直是生命科学研究的热点和难点。近日,中国科学院水生生物研究所葛峰学科组在这一问题上取得突破性进展,相关研究成果于近日在线发表于国际期刊《分子植物》上。
据了解,该研究团队利用蛋白质基因组学,对三角褐指藻的基因组进行了深度注释,构建出其蛋白质组精细图谱,对此前的注释信息做了大量的修正与补充。更为瞩目的是,该团队在实验中建立的一套实验流程和分析软件,可适用于已完成基因组测序的所有生物,为基因组的解读提供了重要工具。
破译核苷酸长序列这本“无字天书”
基因组测序得到的是一本写有核苷酸长序列的“无字天书”。哪一小段序列构成一个基因,这个基因能否指导合成蛋白、能合成哪些蛋白,在这本“书”上是找不到答案的。要回答以上问题,就需要科学家们做进一步的注释。
以往的注释工作,多是从生物信息学的角度进行。这是通过算法计算来预测能翻译蛋白的基因(也称编码基因),以及它们各自在基因组中的位置,但这种方法会遗漏许多编码基因,或对基因做出错误的注释。
随着蛋白质组学的发展,一种利用蛋白质组数据对基因组进行深度注释的研究方向悄然兴起。具体来说,就是提取生物细胞内所有的蛋白质,通过质谱分析法得到每个蛋白的氨基酸序列,再在计算机上将其与基因组序列进行大量比对,反推出各编码基因的精确位置。
“眼见为实自然比基于运算推测来得可靠。”据该研究成果的第一作者杨明坤介绍,这次实验不仅为许多已知的编码基因如何在蛋白质水平上表达提供了证据支持,还发现了606个新的编码基因,其中有56个在此前被错误预测为非编码基因,另有506个编码基因的错误注释得到校正。
此外,能解析蛋白质翻译后修饰现象,是蛋白质基因组学的另一优势。通过20种氨基酸合成的蛋白质,通常要再经过一道加工工序,才能成为具备某种功能的成熟蛋白,而加工的类型往往是多样的。这就意味着,相同的氨基酸序列,可能会形成不同种类的成熟蛋白。此次研究发现的20多种蛋白质翻译后修饰,就是这一优势的佐证。
一款软件十一套实验流程即可获得深度注释信息
如何将蛋白质组图谱描画得更精细、对深奥的基因组信息注释得更详尽,一直以来都是蛋白质基因组学的一大难题。而此次研究在可变剪切体的完善上有了新的突破。可变剪切是指基因在转录过程中,“剪”去某几段序列,并将剩下的序列打乱重组的过程。同一基因,不同的剪切位点和排列方式,会形成不同的蛋白质。
杨明坤在接受科技日报采访时表示,此前的研究都是通过鉴定相应蛋白质的存在,去验证已知的可变剪切体。而这次他们做的工作,是去发现未知的可变剪切体。
“我们设计相关算法,寻找蛋白的氨基酸序列上可能存在的不同剪切位点,再将剪切得到的‘断片’与基因组数据比对,从而找到相应的可变剪切体。”杨明坤说。据悉,该团队共发现21个新的可变剪切体,并修正了73个已知基因的可变剪切位点。
对基因组的深度注释涉及大量的运算,为提高工作效率,该团队将各个步骤运用到的算法整合起来,研发出一款适用于所有生物的数据分析软件。运用这款软件,只需输入质谱仪采集的质谱数据和简单的软件运行参数,就能直接得到相关的基因组注释信息。此外,团队还建立了一套实验流程,供其他科学家参考。这也意味着,今后可直接依葫芦画瓢,用团队的这套流程和软件,快速完成其他物种的基因组深度注释。
杨明坤表示,研究小组将进一步优化软件,继续提高其运算速度和准确率。“由于2014年完成的人类蛋白质组草图有太多错漏,我们准备进一步完善这项工作。只有清楚了人体各个组织内都有哪些蛋白质,在此基础上才能更好地进行精准医疗。”杨明坤说。
科普百分百·助力科普中国,让科学知识在网上和生活中流行起来。温馨提示:以上为科普百分百网上阅读所浏览内容,转载分享只为知识传播和学习宣传,本文内容仅代表原作者观点,如有意见建议,请私信留言,我们会及时处理。欢迎关注,谢谢。
基因组序列太深奥?用这套工具能读懂,基因序列组成
生物学家劳伦斯·赫斯特和斯蒂芬·弗里兰在20世纪90年代末把天然基因密码和计算机随机产生的几百万组密码拿去比对,结果轰动一时。他们想知道,如果发生点突变这种把一个字母换掉的变异,哪一套密码系统能保留最多正确的氨基酸,或将它代换成另一个性质相似的氨基酸。
结果他们发现,天然的基因密码最经得起突变的考验。点突变常常不会影响氨基酸序列,而如果突变真的改变了氨基酸,也会由另一个物理特性相似的氨基酸来取代。据此,赫斯特与弗里兰宣称,天然的遗传密码比成千上万套随机产生的密码要优良得多。它不但不是大自然密码学家愚蠢而盲目的作品,而是万里挑一的密码系统。
天然的三联基因密码的第一个字母都有特定的对应方式。举例来说,所有以丙酮酸为前体合成的氨基酸,它们密码的第一个字母都是T。所有由α-酮戊二酸所合成的氨基酸,其三联密码第一个字母都是C;所有由草酰乙酸合成的氨基酸,第一个字母都是A;最后,几种简单前体通过单一步骤所合成的氨基酸,第一个字母都是G。
三联密码的第二个字母和氨基酸是否容易溶于水有关,或者说和氨基酸的疏水性有关。亲水性氨基酸会溶于水,疏水性氨基酸不会溶于水,但会溶在脂肪或油里,比如溶在含有脂质的细胞膜里。所有的氨基酸,可以从“非常疏水”到“非常亲水”排列成一张图谱,而正是这张图谱决定了氨基酸与第二个密码字母之间的关系。疏水性最强的六个氨基酸里有五个,第二个字母都是T,所有亲水性最强的氨基酸第二个字母都是A。介于中间的有些是G有些是C。
三联密码的第三个字母不含任何信息,不管接上哪一个字母都没关系,这组密码子都会翻译出一样的氨基酸。以甘氨酸为例,它的密码子是GGG,但是最后一个G可以代换成T、A或C。
第三个字母的随机性暗示了一些有趣的事情。二联密码可以编码16种氨基酸。如果我们从20个氨基酸里拿掉5个结构最复杂的(剩下15个氨基酸,再加上一个终止密码子)这样前两个字母与这15个氨基酸特性之间的关联就更明显了。因此,最原始的密码可能只是二联密码,后来才靠“密码子捕捉”的方式成为三联密码,也就是各氨基酸彼此竞争第三个字母。
第一个字母和氨基酸前体之间的关系直截了当,第二个字母和氨基酸的疏水性相关,第三个字母可以随机选择。这套密码系统除了可以忍受突变,还可以降低灾难发生时造成的损失,同时可以加快进化的脚步。因为如果突变不是灾难性的,那应该会带来更多的好处。