图源:Sangharsh Lohakare / Unsplash
  孤儿基因  
人类基因组是一份不断给予的礼物。近年来,科学家发现了一些所谓的孤儿基因。与那些从我们的灵长类祖先那里遗传得来的基因不同,一些孤儿基因似乎是在我们进化的过程中自发产生的基因序列,它们编码的蛋白质似乎没有任何显而易见的祖先。
在一篇新发表于《细胞报告》杂志上的论文中,一个国际研究团队发现了155个这样的新基因。它们是155个被称为“可读框”的短小的DNA序列,可以产生对健康细胞的生长非常重要以及与一些疾病有关的微蛋白。
可读框  
我们知道,DNA是由一系列“字母”组成的,这些字母代表着碱基,它们包括腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四种。生物已经进化出各种方法,来确保DNA在复制时能复制出正确的字母序列。特定的序列是核糖体用来制造特定蛋白质的“配方”。
当核糖体在读取一堆碱基序列时,一个由三个核苷酸组成的被称为密码子的序列,会告诉核糖体从哪里开始和终止读码。在起始密码子和终止密码子之间的一段序列,就是可读框。
理论上说,可读框可以编码一定长度的蛋白质的DNA。在进行进一步的分析之前,科学家无法确定这样的DNA是否具有遗传效应。一种被普遍接受的观点是,可读框越长,就越有可能编码出具有功能的、有意义的蛋白质。
当可读框很短时,科学家几乎无从知道它的编码是否在生物学上有实际意义。在很长一段时间里,短小的可读框一直被视为是基因组中无意义的噪声。
但是,生物学家们越来越多地开始思考这样一个问题:如果这些短小的可读框真的有着重要的意义,并且能够产生有作用的蛋白质,那么它们是否就能解释新基因的进化,以及新特征在物种中的出现?

 155个新基因序列  
为了解答这个问题,2017年,新研究的第一作者Nikolaos Vakirlis与他的同事开始了一项研究。然而,这个项目却被搁置了好几年。这是因为在我们的基因组中,有无数个短小的可读框,要筛选其中哪些是功能性的,哪些是无用的,再追踪它们的起源,是一项非常艰巨的任务。
2020年,一项发表于《科学》杂志的研究包含了许多已确定具有生物功能的人类的短小的可读框数据集。利用这些数据,Vakirlis重新开始了他的探索。
在新研究中,研究人员通过将短小的可读框的序列与人类的一些近亲类人猿物种,比如黑猩猩、红毛猩猩、大猩猩、长臂猿,以及其他一些脊椎动物的相同序列进行比较,拼凑出了一棵系统发生树。
这个图表描绘了这些物种之间的进化关系。如果某个可读框只出现在人类身上,那么它有可能是人类特有的;但如果它也出现在如黑猩猩等物种身上,那么它可能源自于我们的共同祖先。
研究人员发现通过利用这些数据,在DNA的一些特殊区域总共找到了155个会产生完全“从零开始”制造微蛋白的可读框。其中有44个与细胞培育中的生长缺陷有关。
由于这44个基因序列是人类特有的,因此研究人员很难直接对其进行检测,他们必须用其他方法来探索这些新基因可能对身体产生的影响。通过检查在这些DNA中发现的模式,研究人员分析了这些基因是否会在特定疾病中发挥作用。
此外,在这155个新的基因中,他们还发现了3个似乎与肌营养不良、色素性视网膜炎和Alazami综合征(一种影响发育的遗传疾病)有关,以及一个与心脏组织密切相关。与心脏组织相关的可读框只存在于人类和黑猩猩体内,不存在于大猩猩、红毛猩猩或猕猴体内。这意味着它是在人类和黑猩猩与大猩猩分支进化后出现的,它表明一旦进化出现分支,基因就可以在一个物种内非常迅速的进化。
仅仅是个开始  
这是首个研究这些微小的可读框及其微蛋白的特定进化起源的研究。对于可读框研究来说,这项研究只是了解它们如何参与新基因的制造、人类的进化,以及在健康和疾病中所发挥的作用的开始。
要做的工作还有很多,还有大量的可读框有待研究。未来,将会有更多的研究专注于了解这些微小的基因可能会做什么,以及它们是否可能与某些疾病直接有关。当获得了更多的数据时,将有更多有趣的问题可以被解答。
继续阅读
阅读原文