
《科学》封面:迄今最完整的人类基因组测序结果公布
()据药明康德:人类的基因组常被比作是一本书写生命的“天书” , 只有A、T、C、G四种“字母”——代表构成DNA的四种碱基,但字数多达60亿个,分布在23对染色体中,无穷的组合蕴含着人类进化、生老病死的无数奥秘 。
21世纪之初,人类基因组序列的第一版草图问世,尽管并不完整,却已经在生物医学领域产生了深远的影响 , 为临床研究、药物开发和医疗实践的发展提供指引 。
时隔二十一年 , 人类基因组测序领域迎来了新的里程碑:一份更完整的、无间隙的人类参考基因组 。
本周,《科学》杂志同时上线的6篇论文中,一个名为“端粒到端粒”联盟(T2T)的国际科研团队宣布完成了最新的人类参考基因组(被命名为T2T-CHM13),包括所有22条常染色体和X染色体的无缝组装 。其序列包含30.55亿对碱基 , 不仅在过去的基础上增加了近 2亿碱基的遗传信息——相当于一条人类染色体包含的信息,还纠正了过往基因组序列上的许多错误,并解锁了人类基因组中结构最为复杂的一些区域 。
填补最后8%的空白
由于当时的测序技术所限,第一版人类基因组测序草图中留有许多空白 。2013年完成的新版本并经过2019年的更新后,人类基因组测序结果中仍有数百万个碱基由字母“N”表示,代表着该位置的实际碱基未知 。更重要的是,占人类基因组大约8%的生物学重要区域处于未探明的状态 。
为了填补最后的空白,来自几十个研究机构的近100名科学家组成了大型团队“T2T联盟”,也就是对每条染色体从一端的端粒到另一端的端粒进行测序 。随着此次研究成果的集中发表,用团队领导人之一、华盛顿大学Evan Eichler教授的话说 , 我们在生命天书中“读到了以前从未读过的章节” 。
读取基因组时,科学家首先将所有DNA切成数百到数千个字母长的片段,由测序机器读取每个片段中的字母 , 然后科学家们试图以正确的顺序组装片段,就像玩一个超级复杂的拼图 。
这个过程中的一大挑战是,基因组中的某些区域由大段重复字母组成,就像拼图中有些板块由看起来一样的碎片组成 , 而这些区域往往具有重要的生物学特征,某些情况下还与人类疾病有关 。另一个难点是,绝大多数细胞内包含两套基因组,分别来自父亲和母亲 。当研究人员试图组装DNA片段时 , 两套基因组的序列混合在一起,就掩盖了两者本身具有的差异 。
研究团队找到了一种只含单个基因组的细胞系来消除上述等位基因多样性的问题 。这种特殊的细胞系来自所谓的葡萄胎 , 是一种异常胚胎 , 受精后仅保留一个亲本的基因组副本 。
攻克难关的关键进展还离不开测序技术的重大飞跃 。基于具有革命性突破的长读长测序技术 , 研究者可以解码更长的序列,甚至一次准确读取多达百万级的碱基对也不成问题 。
解锁最复杂的区域
此次解锁的新序列大约90%来自染色体的着丝粒 。在形成精子或卵子的减数分裂过程中,着丝粒是成对染色体分离时附着的地方 。这个区域结构独特,包含长段重复序列,而且DNA和蛋白质似乎在这一区域缠绕得格外紧凑 。
在T2T提供完整序列后,人类第一次有机会对着丝粒及其周围序列的作用一探究竟 。
根据他们的分析,着丝粒以及附近区域有各种序列堆叠现象 , 通常是一段新序列覆盖在旧序列上 。这一过程可以保证着丝粒与关键的动粒结构紧紧结合 。动粒是着丝粒两侧的特化结构,参与染色体的移动过程 。
旧序列会存在一些随机突变和缺失,说明这一段区域已经被弃用;新序列中突变和甲基化都更少,说明正在被使用 。而着丝粒中含有大量重复长度的DNA序列 , 大约为171个碱基,这些重复单元会共同形成更大的重复结构并串联多次,构成了着丝粒中的重复序列区域 。
着丝粒的重复序列在不同人之间同样会存在差异 。其中一篇论文比较了全世界1600人的着丝粒序列后发现 , 非洲大陆以外的人,着丝粒(尤其是X染色体上的着丝粒)倾向于分成两大簇,还有一些有意思的突变会出现在有非洲人血统的人身上 。未来 , 科学家或许能通过解析着丝粒序列来追溯人类的谱系,对人类的演化史探索有重要意义 。
最后得到完整测序的区域
在此次发表的一系列成果中,研究人员着重分析了基因组中的重复片段在人类演化、遗传多样性的形成以及疾病中的重要作用 。
重复片段(segmental duplication)是基因组中反复出现的、序列相似性超过90%以上的大段序列 。无论是物种内还是物种之间的演化过程中,大多数的遗传变异都出现在重复片段区域,这里是产生新基因和新基因功能发生适应性变化的关键 。但由于结构的复杂性,这里也是人类基因组中最后得到完整测序的区域 。
现在 , 基于最新的完整人类基因组测序结果,科学家终于能够以更综合的视角审视人类的重复片段 。在这类区域,科学家找到了182个全新的蛋白质编码基因,并且帮助我们理解一系列重要的演化与医学难题 。
例如,比较人类与其他灵长类动物的测序结果 , 研究发现了与人类前额叶皮层扩张相关的基因TBC1D3,这将有助于重现古人类演化的历史 。而在不同人类个体间,在重复片段区域编码脂蛋白的LPA基因,其数量与心血管疾病风险高度相关……
基于这项研究,我们能够全面理解重复片段的组织、表达与调控,并提升基因注释与基因分型 。
在另一项研究中 , 康涅狄格大学Rachel O‘Neill教授领导的团队揭示了重复序列的转录与表观遗传状态 。重复序列包含移动遗传元件,它们可以移动至基因组的其他区域 。研究指出 , 一些多次重复的片段所包含的基因,能在很大程度上解释人类的遗传多样性 。
除了从基因组的角度揭示特定重复序列对人类的影响,这项研究还从局部(例如着丝粒中)分析了重复序列的转录图景、描绘了甲基化的情形 。这些结果将帮助我们理解转录在基因组稳定性以及染色体分离机制中的作用 。
O‘Neill教授表示,接下来他们计划对更多不同人群进行基因组测序,从而更全面地理解人类多样性、疾病机制,以及我们与其他灵长类近亲的关系 。
新的起点
“生成真正完整的人类基因组序列代表了一项令人难以置信的科学成就,为我们的DNA蓝图提供了第一份全面视图 , ”美国国家基因组研究所主任Eric Green博士评论说 。
《科学》杂志的专题则这样总结:最新的人类参考基因组代表着“重要的一步,表明可以组装代表所有人类的模型 , 这将更好地支持个体化医疗、人口基因组分析和基因组编辑 。”(_原题为:新的里程碑!新的里程碑!《科学》封面重磅:迄今最完整的人类基因组测序结果公布)
相关报道:首个完整无间隙人类基因组序列公布
()据科技日报(实习采访人员 张佳欣):被誉为生命科学“登月计划”的人类基因组测序再次取得重大进展:国际科学团队端粒到端粒联盟(T2T)发表了第一个完整的、无间隙的人类基因组序列,首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异 。这是对标准人类参考基因组,即2013年发布的参考基因组序列(GRCh38)的“重大升级” 。当地时间31日,《科学》杂志连发6篇论文报告这一成就 。
2001年2月12日,由6国科学家共同参与的国际人类基因组计划首次公布人类基因组图谱及初步分析结果;2003年4月15日,公布了人类基因组序列草图 。然而由于技术限制,当初的人类基因组计划留下了大约8%的“空白”间隙 。这部分很难被测序,由高度重复、复杂的DNA块组成,其中包含功能基因以及位于染色体中间和末端的着丝粒和端粒 。
新的无间隙版本被称为T2T-CHM13,由30.55亿个碱基对和19969个蛋白质编码基因组成 。增加了近2亿个碱基对的新DNA序列,包括99个可能编码蛋白质的基因和其中近2000个需要进一步研究的候选基因 。这些候选基因大多数是失活的,但其中115个仍然可能表达 。团队还在人类基因组中发现了大约200万个额外的变异,其中622个出现在与医学相关的基因中 。此外,新序列还纠正了GRCh38中的数千个结构错误 。
具体而言,新序列填补的空白包括人类5条染色体的整个短臂,并覆盖了基因组中一些最复杂的区域 。其中包括在重要的染色体结构中及其周围发现的高度重复的DNA序列,如染色体末端的端粒和在细胞分裂过程中协调复制染色体分离的着丝粒 。新序列还揭示了以前未被发现的节段重复,即在基因组中复制的长DNA片段,已知其在进化和疾病中发挥重要作用 。
新序列还在识别和解释遗传变异方面具有重要改进,并揭示了关于着丝粒周围区域的前所未见的细节 。这一区域内的变异性可能为人类祖先如何进化提供新证据 。
研究人员称 , 这一完整的、无间隙的序列对于了解人类基因组变异的全谱和了解某些疾病的遗传贡献至关重要 。
研究人员表示,下一阶段的研究将对不同人的基因组进行测序 , 以充分掌握人类基因的多样性、作用以及我们与近亲、其它灵长类动物的关系 。
- DNA核小体结构影响生物进化
- 双女主角的动漫
- 科学家复原2000年前世界上最早的计算机
- 名著读书笔记
- 英国科学家成功模拟"黑洞"运动
- 美国发现双性鸟
- 科学家制作3D恐龙图片重现恐龙世界
- 韩国科学团队称发现治脱发方法
- 美国国家地理杂志评选2008年十大科学新闻图片
- 《 JAMA Network Open》网络版:所有级别的酒精摄入都跟较高的心血管疾病风险有关
