每经记者:张凌霄 每经编辑:高涵
人类基因组计划被誉为生命科学的 “登月计划”。1990年,人类基因组计划由美国能源部和美国国家卫生研究院投资,预期在15年内完成。2001年2月12日,由6国科学家共同参与的国际人类基因组计划首次公布人类基因组图谱及初步分析结果。2003年,研究人员公布了当时被称为完整的人类基因组序列,但其中有大约8%尚未完全破译,主要是因为它包含的高度重复的DNA片段难以与其他部分啮合。
近日,《科学》杂志连续发6篇论文报告,公布了由国际科学团队“端粒到端粒(T2T)”联盟研究出的首个完整无间隙人类基因组序列,填补了近20年来缺失的“拼图”碎片。
继2001年人类基因组序列的工作草图问世后,时隔二十多年,人类基因组测序终于迎来了历史性的突破。这一科学界的里程碑对于我们普通人来说意味着什么?这份人类基因“拼图”有何应用?
《每日经济新闻》记者(以下简称NBD)专访了T2T联盟发起人之一、美国加利福尼亚大学圣克鲁兹分校基因工程学助理教授凯伦·米加(Karen Miga),以及研究论文的主要作者——约翰斯·霍普金斯大学计算机科学和生物学系教授迈克尔·沙茨(Michael Schatz)以及华盛顿大学基因组科学系博士后研究员格伦尼斯·洛格斯登(Glennis Logsdon),揭秘首个人类基因组完整序列的创新突破和应用前景。
在人类基因组序列中,这部分被遗漏近20年的序列结构极为复杂,主要是DNA序列高度重复的染色体中间部分的着丝粒、末端的端粒。
(编者注:每条染色体都有一个叫做着丝粒的收缩点。在分裂前期和中期,着丝粒把两个姐妹染色单体连在一起。)
联盟此次发表的新研究成果则是填补了这部分的空白。“有约90%的新序列实际上来自染色体的着丝粒。”T2T联盟研究论文的主要作者之一、加利福尼亚大学伯克利分校的博士后Nicolas Altemose介绍。T2T联盟汇集了全球100多名顶尖科学家。
这些拼图“碎片”有何作用?这项成果的创新性和突破性在哪儿?
NBD:这份人类基因组完整“拼图”意味着什么?
迈克尔·沙茨:基因组对生命的多个方面都有重大意义,它影响着一个人的主要特征,如身体特征,也决定着一个人患上不同遗传疾病的概率。
以前的人类参考基因组GRCh38缺失了约8%的序列,因此几乎所有以前的遗传学和基因组学研究都无法探索这些序列如何影响人类特征。尽管8%似乎是一个小数字,但它仍然可以做出重大贡献。
另外,新序列纠正了当前参考序列中的数千个结构错误,我们由此发现了数百个临床相关基因,这包括与肌肉麻痹、心律失常、脊髓性肌萎缩、免疫力、癌症等疾病相关的基因。
凯伦·米加:完整的人类基因组序列将帮助我们加深对人类基因组中最难测序、且高度重复的那部分基因片段的理解。此外,它也将为科学家研究人类基因组变异、疾病和进化提供一个全面的框架。
格伦尼斯·洛格斯登:人类基因组的完整序列为我们提供了一个新的视角,随着最后8%基因组的破译,我们能够更全面地检测这些片段中的致病性基因变体,并开发出有效的治疗方法。
NBD:新解锁的8%基因片段具有什么样的功能?
格伦尼斯·洛格斯登:新的基因片段有许多不同的功能。首先,着丝粒是我们每一条染色体上的一大重要区域,它能够确保每一条染色体在细胞分裂过程中被准确地分割到子细胞中。功能失调的着丝粒可能会导致癌症、不孕不育和先天缺陷。通过确定每个着丝粒的完整序列,我们现在可以开始识别导致染色体分离并导致这些疾病的基因变体,这将帮助我们开发新的治疗方法。
其次,我们从多个高度重复的基因片段中发现了许多新的基因,其中就包括182个对疾病有重要影响的新基因。例如,存在一个被称为LPA的基因,它反映了冠心病、心血管疾病、动脉粥样硬化、血栓和中风的遗传风险。LPA的完整序列能够帮助我们了解该基因中的变体如何促成上述疾病的形成和发展。
迈克尔·沙茨:新的基因序列解析了许多以前没有被表现出来的片段。细胞需要着丝粒来保证其在分裂时能够精确地复制DNA(通常是复制两份,一份来自母亲,一份来自父亲),这个过程如果出现错误,就可能会导致癌症等重大疾病或是其他严重的发育障碍。
图片来源:视觉中国-VCG111309808561
此前,这最后的8%基因组之所以很难被测序,主要是因为它由高度重复的DNA“砖块”构成,“就像是拿着好几块相同的拼图碎片一样,很难把它和其他的碎片拼在一起。”
T2T联盟的研究人员通过新的纳米机器设备与核心技术,让小拼图变成了大拼图,得到了被称为“T2T-CHM13”的无间隙版本参考序列,基因组由30.55亿个碱基对和19969个蛋白质编码基因组成。
完整“拼图”是如何解锁的?背后有什么技术创新?后续有何研究计划?
NBD:此次基因组测序取得重大突破的主要原因是什么?
迈克尔·沙茨:新的技术确实非常重要。在T2T联盟的研究中,我们使用了太平洋生物科学公司(Pacific BIOSciences)和牛津纳米孔技术公司(Oxford Nanopore Technology)发明的,被称为“长读长测序技术”的新实验方法对基因组的不同部分进行了测序,再运用新的算法来分析已经得到的数据,最终首次准确地组装了基因组。
这个过程类似于组装拼图,然而许多“拼图块”因为有着高度相似的着丝粒,就像天空中的云或者撞碎的波浪,非常难以区分。
凯伦·米加:我认为,正确的技术、正确的科学家团队和正确的时间都非常重要。我们的每个细胞中都有数十亿个DNA碱基,而我们目前的技术是无法从头到尾读取基因组的。
构建基因组的过程经常被比作拼图,在过去,研究人员只能对小部分DNA进行测序,得到的拼图块也就比较小,可能需要处理10000块小拼图块。而我们使用“长读长测序技术”,则让这些小拼图块变成了100块大拼图块。
格伦尼斯·洛格斯登:这次研究取得成功源于两个方面的重大突破,两者都同等重要。首先是测序技术的发展,“长读长测序技术”所能提供的短读数据长100-1000倍,使我们得以首次连贯地读取一些片段。另一个重大突破是新的统计算法,通过这个算法,我们可以把读取到的DNA组装成一个高度精确的序列。
NBD:未来可能的研究方向是什么?
凯伦·米加:我们的单一完整基因组并不能了解人类遗传变异的全部多样性。因此,T2T联盟正在与人类泛基因组参考联盟合作,致力于集合不同种族或血统的人的基因序列,建立一个能够代表全人类的高质量参考基因组,这将是T2T联盟未来几年的一个重点工作。
迈克尔·沙茨:新的完整人类基因组为下一步的研究提供了许多新机会。首先,我们可以使用这个新的参考基因组来重新分析现有的数据,包括研究和识别新的遗传变异,进而认识新的疾病风险因素。第二,我们的研究证明了现在已经存在对人类基因组进行完全测序的技术,基于这一结果,未来可能使用相关技术对其他基因组也进行测序。
图片来源:摄图网-500327248
过去几十年中,伴随着人类基因组测序进程的推进,基因测序的商业化落地也开始不断拓展,基因测序在疾病早筛、微生物、遗传学检测等领域都是其应用方向。
但值得注意的是,目前基因测序技术的商业化应用比例并不高。Grand View Research的数据显示,2020年全球基因测序行业下游应用中,54%的应用被学术研究占据,用于临床研究和医院诊断的比例仅为18%和14%。
在测序技术逐渐成熟以及测序成本不断降低的背景下,基因测序市场有其广阔的前景。根据数据情报公司Precedence Research预测,全球DNA测序市场规模预计将从2020年的84.1亿美元增长到2030年的约406.4亿美元,2021年至2030年间的复合年增长率(CGRR)为17.5%。
一边是商业化程度不足,一边是广阔的市场。基因测序在哪些领域商业化应用前景向好?现阶段发展又面临什么样的难点?
NBD:基因组测序的研究成果有哪些应用?
迈克尔·沙茨:新的基因组可以有助于识别疾病的新风险等位基因或新的药物靶点,也可以用于研究许多其他生物系统,尤其是研究作为人类的药物或食品的动植物。
另外,在农业领域,基因测序可以帮助育种,让牛和作物更有生产力,对害虫和不同的环境条件更有抵抗力。参考我们刚刚组装的人类基因组,我们的测序技术也可以用于组装主要农业物种的高质量参考基因组,这将有助于更好地揭示这些物种的基因组和表观基因组变异。
格伦尼斯·洛格斯登:人类基因组的完整序列将帮助我们检测导致不孕不育和流产的变异基因,尤其是着丝粒区域内的变异。通过识别这些变异并确定它们如何影响细胞分裂过程中的染色体分离,我们有望研究出降低不孕不育和流产等的风险、提高生育率的医疗策略。
NBD:这份完整的基因“拼图”可以怎么用?
格伦尼斯·洛格斯登:目前,许多针对基因疾病的检测都是使用基因芯片对致病性变体进行检测,这些检测都是基于之前的人类参考基因组来进行的。但是之前的参考基因组缺少数亿个碱基,部分变异无法被基因芯片检测到。有了人类基因组的完整序列,我们可以开始检测新的致病性变异,但这需要开发新的基因芯片和软件实现,这可能需要数年才能达成。
NBD:基因测序市场在未来几年将如何发展?
格伦尼斯·洛格斯登:我预计在未来5-10年内,基于基因测序的个性化医疗市场可以有机会迅速扩张。个性化医疗领域有许多可以商业化的技术,比如智能手机的App,允许个人访问自己的基因组序列,确定疾病风险,并制定预防措施或开始进行治疗。此外,未来几年基因组测序数据量必然将快速增长,因此用于存储、处理和临床解释基因组数据的云平台也有发展空间。
每日经济新闻