T2T(telomere to telomere)指的是通过结合多种测序技术(HiFi+ONT ultra-long),实现一条或多条染色体端粒到端粒水平组装的0 gap基因组。自Nature发布人类X染色体完成图以来,两年间科研学者已构建10个物种的T2T(近T2T)基因组,近一个月更是相继发表3个物种(拟南芥、水稻、西瓜)的T2T基因组,这说明T2T基因组的爆发时代即将来临!基于此,我们对已发表的T2T基因组进行详细汇总,以雍读者。
表1 已发表的T2T基因组文章集锦
1.拟南芥T2T基因组
拟南芥T2T基因组共有3篇文章,具体详情如下。
(1)2021年8月,GPB发表了拟南芥Col-XJTU的T2T基因组,其完成了拟南芥3号和5号染色体端粒到端粒的组装、4号染色体的无缺口组装,进一步发现拟南芥着丝粒的CENH3信号富集区域也呈现低甲基化状态,说明不同物种着丝粒之间存在结构功能保守。
(2)2021年11月,Science发表了拟南芥Col-CEN的T2T基因组,该研究组装了拟南芥首个含着丝粒全序列的基因组,完整地覆盖了染色体1和3从端粒到端粒的全序列;但染色体2和4的45S rDNA群组和近端粒区域仍不完整,染色体5也存在一个空白区。
(3)2022年6月,Molecular Plant发表了拟南芥Col-PEK的T2T基因组,Col-PEK填补了包括五个着丝粒在内各区域中的绝大多数gap。Col-PEK为目前最为完整的拟南芥基因组组装,完成了1、3、5号染色体从端粒到端粒的完整组装,仅2号和4号染色体的多拷贝NORs区域尚不完全。
图1 不同版本拟南芥基因组的共线性分析
2.水稻T2T基因组
水稻是最先构建T2T基因组的模式物种,截止2022年6月,共有3篇文章报道了6个不同水稻品种的T2T基因组,具体详情如下。
(1)2021年6月,Molecular Plant背靠背发表两篇水稻T2T基因组,第一篇研究者采用高深度的HiFi和CLR测序,组装出0 gap的ZS97和MH63 R3版本参考基因组(基因组大小分别为391.56Mb和395.77Mb),基于Gap free的参考基因组,研究者对水稻12条染色体上着丝粒区域的结构和功能进行了详细研究;第二篇基于HiFi组装、与参考基因组比较、补gap等方式,研究者构建了明恢63(MH63)的基因组完成图MH63KL1,随后重点讨论了节段重复和转座子对水稻基因组进化的影响。
(2)2022年6月,PBJ在线发表了湘陵628S、晶4155S、隆科638S与华占4个杂交水稻骨干亲本的T2T基因组,结合已发表的6个杂交水稻亲本基因组,研究系统分析了SV在杂交育种过程中的分布和影响,发现SV在F1功能基因及转录杂种优势中具有重要作用,这标志着杂种优势与杂交育种研究已进入T2T时代。
图2 4个杂交水稻T2T基因组
3.西瓜T2T基因组
2022年6月,Molecular Plant发表了首个小果型西瓜自交系G42 T2T基因组,组装的G42基因组大小为369.32Mb,预测了24205个蛋白编码基因,解析了全部端粒和着丝粒的序列信息,填补了西瓜97103v2版本基因组中的220个缺口。
利用花粉EMS诱变技术,研究者构建了G42遗传背景的西瓜EMS突变体库,获得了20多万粒M1种子。与以97103v2版本为参考基因组相比,T2T- G42参考基因组极大提高了突变位点检测的准确率。基于T2T基因组,研究者在西瓜上鉴定到了与长果和雄性不育相关的突变体,均由G突变成A导致。最后,研究者构建了西瓜T2T基因组和突变体的数据库-WaGMDB(http://www.watermelondb.cn)。
图3 西瓜G42 T2T基因组
4.玉米近T2T基因组
2022年4月,预印版期刊bioRxiv发表了改良本的玉米B73 RefGen_v4基因组。研究者在B73 RefGen_v4基础上,手动弥补了玉米B73的10个着丝粒的140Mb序列,弥补了127个gap;先添加了8.4Mb的序列,包含24个基因、2MB的CR重复序列和887KB的CentC。至此,五条玉米染色体的功能着丝粒完全闭合,包括一个7 Mb的区域,跨越富含CR2的CEN2。这一版本的玉米近T2T基因组显著改善了玉米的着丝粒区域,并有助于玉米T2T基因组的构建。
表2 玉米B73功能着丝粒的组装结果统计
5.香蕉近T2T基因组
2021年9月,Communications Biology发表了香蕉的近T2T基因组。基于ONT 超长测序,研究者利用177×(其中17×>75Kb) 的数据构建了香蕉近完成图,其中有5条染色体为T2T组装。基于香蕉近完成图,研究者新发现了1700个基因,大部分位于1号和7号染色体上,这些新基因主要是串联重复基因,多以基因簇的形式存在于染色体重组区域,部分基因对香蕉的环境适应性和抗病性具有重要作用。此外,研究者还揭示了新组装的香蕉V4基因组与v1和v2版本间的共线性和结构变异,并对香蕉的A、B、S三套亚基因组的组装优化进行了初步探讨。
图4 香蕉近T2T基因组
6.澳洲胡桃近T2T基因组
2021年11月,the plant journal发表了澳洲胡桃的近T2T基因组。研究者通过PacBio HiFi测序并利用Hifiasm组装,在没有结合其它技术的情况下,就完成了澳洲胡桃近T2T基因组的组装。澳洲胡桃的14条染色体中,有8条染色体仅由1个contig 组成(其中6条属于T2T),其余6条染色体由2-4个contig组成,这些断裂的区域主要是高度重复序列和核糖体基因,随后结合Hi-C技术构建染色体水平胡桃基因组,并对基因组中的重复序列和核糖体基因进行了研究。
图5 澳洲胡桃6条T2T染色体Contig版本与Hi-C版本间的共线性
7.大麦近T2T基因组
大麦是全球主要的粮食作物之一,关于其基因组测序的研究已有多篇报道。在2012年构建了大麦基因组草图后,2020年Nature 在线报道了20个大麦的泛基因组,但由于高重复高杂合等特点,大麦基因组完成图一直未有报道。
2021年3年,Plant Cell报道了“Long-read sequence assembly: a technical evaluation in barley”的研究论文,该研究通过对不同测序技术、组装软件进行比对,指出了PacBio HiFi技术在构建大麦基因组中连续性最好、准确度最高,随后结合Hi-C、Bionano、遗传图谱等技术构建了目前最完整的大麦基因组MorexV3(但仍然有1.32 Mb的Gap)。
2021年11月,bioRxiv报道了“Prospects of telomere-to-telomere assembly in barley: analysis of sequence gaps in the MorexV3 reference genome”的研究论文,该研究通过多种技术鉴定了大麦基因组中着丝粒、核糖体DNA和端粒重复序列的长度和频率分布,发现MorexV3几乎没有着丝粒序列和45S核糖体DNA重复序列,最后研究者指出ONT 超长技术可以为攻克这些gap提供较多帮助。
图6 大麦构建T2T基因组前的评估(上表测序技术,下图重复序列、着丝粒、端粒定位)
8.人T2T基因组
2022年3月,Science发表了人类CHM13的T2T基因组,解决了人类基因组最后8%的区域,总组装长度为30.55 亿碱基对(3.055Gb)。除Y染色体外,T2T-CHM13所有染色体都达到了T2T水平。与GRCH38相比,T2T-CHM13解决了接近120Mb的Gap区域,多注释了3404个基因,完成的区域包括所有着丝粒卫星阵列、节段重复和所有五个近端着丝粒染色体的短臂,将基因组的这些复杂区域解锁到变异和功能研究。
图7 人类T2T基因组的构建历程(注:封面文章红色部分为新完成的组装区域)
9.鱼T2T基因组
2021年7月,Genome Biology发表了大刺鳅Y染色体的T2T基因组。在动物的染色体中,Y染色体以其基因含量少、高重复、高杂合等特征成为了最难以组装的区域之一。 本研究中,研究者通过HiFi和Hi-C技术构建了近乎完整的大刺鳅基因组,包括无间隙的Y染色体。随后基于重测序研究,研究者定位到了大刺鳅鱼Y染色体的性别决定区域SLR(7Mb),并通过比较X和Y染色体的SLR区域,证实了大刺鳅性染色体属于低重组类型。最后,研究者证实了HMGN6基因为大刺鳅的性别决定关键基因。
图8 大刺鳅基因组完成图的构建策略
10.虫类T2T基因组
2021年3月,BMC Genomics发表了异体住囊虫的T2T基因组。许多虫类基因组较小(小于100Mb),但GC含量极端且具有高重复特征。本研究中,研究者通过ONT和Hi-C技术构建了异体住囊虫的基因组完成图,获得的8条染色体中,有两条属于T2T,另外几条都至少包括了一个端粒,最终构建的基因组大小为64.3Mb,Contig N50=4.7Mb。此外,通过多种方法评估研究者证实了组装结果的可靠性,并基于新版本基因组更新了异体住囊虫的基因注释(发现了更多的基因)。
图9 异体住囊虫T2T基因组
总 结
通过对上述T2T基因组文章进行汇总和分析,我们不难发现,PacBio HiFi和ONT超长读长已经成为构建T2T基因组必不可少的基础测序技术,而Hi-C、Bionano、遗传图谱技术则可以将最终的基因组推向T2T水平。此外,在构建T2T基因组中,植物需要着重解决着丝粒、端粒和核糖体DNA序列,动物需要着重解决性染色体区域。
而在构建T2T基因组后,我们可以进行如下研究。
参考文献:
[1] Hou X, Wang D, Cheng Z, et al. A near-complete assembly of an Arabidopsis thaliana genome[J]. Molecular plant, 2022: S1674-2052 (22) 00181-2.
[2] Zhang Y, Fu J, Wang K, et al. The telomere-to-telomere gap-free genome of four rice parents reveals SV and PAV patterns in hybrid rice breeding[J]. Plant biotechnology journal,2022.
[3] Deng Y, Liu S, Zhang Y, et al. A telomere-to-telomere gap-free reference genome of watermelon and its mutation library provide important resources for gene discovery and breeding[J]. Molecular Plant, 2022.
[4] Laspisa D J, Schneider K L, Presting G G. Improved Centromere Assemblies for RefGen_v4[J]. bioRxiv, 2022.
[5] Belser, C., Baurens, FC., Noel, B. et al. Telomere-to-telomere gapless chromosomes of banana using nanopore sequencing. Commun Biol 4, 1047 (2021).
[6] Sharma P, Kharabian Masouleh A, Topp B, et al. Denovo chromosome level assembly of a plant genome from long read sequence data[J]. The Plant Journal, 2021.
[7] Mascher M, Wicker T, Jenkins J, et al. Long-read sequence assembly: a technical evaluation in barley[J]. Plant Cell, 2021: Epub ahead of print
[8] Nurk S, Koren S, Rhie A, et al. The complete sequence of a human genome[J]. Science, 2022, 376(6588): 44-53.
[9] Xue L, Gao Y, Wu M, et al. Telomere-to-telomere assembly of a fish Y chromosome reveals the origin of a young sex chromosome pair[J]. Genome biology, 2021, 22(1): 1-20.
[10] Bliznina A, Masunaga A, Mansfield M J, et al. Telomere-to-telomere assembly of the genome of an individual Oikopleura dioica from Okinawa using Nanopore-based sequencing[J]. BMC genomics, 2021, 22(1): 1-18.