文章:HiFi Metagenomic Sequencing Enables Assembly of Accurate and Complete Genomes from Human Gut Microbiota
期刊:bioRxiv
发表时间:2022年2月
研究对象:人类肠道微生物样品
研究技术:Pacbio HiFi、cMAG、Filtering pipeline
摘要
随着宏基因组组装的研究进展,使得一些无法单独培养的微生物被发现。宏基因组组装的基因组(MAGs)经常出现不连续和嵌合体的情况。最近,有研究使用纳米孔(nanopore)测序技术从13个人类粪便样本中获得了20个完整的宏基因组组装的基因组(cMAGs),但是这些核苷酸序列的准确性都很低。本研究通过高精度长读段测序技术(HiFi)从5个人类粪便宏基因组样本中得到了102个cMAGs,为了使得到的原核基因组信息可靠,这些cMAGs是使用本研究搭建的生信分析流程对初步组装得到的环化contigs进行过滤后得到的。最终cMAGs的核苷酸准确性与Illumina测序的核苷酸序列准确性相似。cMAGs的基因组能够超过6MB, 包含有不同分类单元的完整基因组,其中包括完全不可培养的RF39和TANB77目,对应的完整基因组信息之前还没有被确定。此外,cMAGs揭示了短读段测序难以组装的区域主要由基因岛(islands)和rRNAs组成。HiFi宏基因组测序将有助于对人类肠道微生物群(包括无法培养的物种)进行精确分类和完整组装。
背景
尽管培养组学技术取得了进步,但大多数人类肠道原核物种仍然无法培养。因此,传统的基于单独培养微生物的测序、组装然后分类的做法并不适用于所有的人类肠道共生菌。利用人类粪便测序样本进行宏基因组组装,已被证明对于组装肠道物种(包括无法培养的类群)的基因组是有用的。然而,由于存在保守序列、重复序列和可移动序列,这些MAGs通常是不连续且嵌合的。有研究利用Oxford纳米孔技术(ONT)对13个人类粪便样本进行长读段宏基因组测序,进而实现了20个环化的cMAGs组装,但是其核苷酸的准确性较低。最近,PacBio的高精度长读段测序(HiFi)已经被广泛应用于动植物基因组的组装,也被应用于复杂微生物群落的分析,如羊的粪便样本和鸡的盲肠样本。环形SMRTbell文库的HiFi重复测序技术通过读段的一致性,在保持读段长度的同时,极大地提高了核苷酸的准确性。此外,用于HiFi宏基因组组装的专用组装软件可以实现cMAGs的高精度组装。
本研究对五份人类粪便样本的HiFi宏基因组测序数据进行了详尽的组装。直接筛选出环化的contigs,跳过了分箱的步骤。本研究开发了一个生物信息分析流程,用来对初步组装结果中环化的contigs进行过滤,旨在获得真实完整的原核基因组。最终,该研究获得了102个可以代表人类肠道菌群不同系统发育类群的完整基因组的cMAGs。该研究分析证明,通过HiFi宏基因组测序获得的cMAGs与Illumina短读段测序序列具有相似的核苷酸准确度。一些cMAGs的基因组大小超过了6 Mbp,最长的达到了6.77 Mbp,超过了99%的人类肠道原核物种的基因组大小。该研究还获得了无法单独培养的RF39和TANB77目分类单元的cMAGs,这两个分支的基因组尚未被分离和报道过。二代组装的MAG与HiFi cMAGs的比对结果显示出短读段测序难以组装的区域主要为基因岛和rRNAs。以上结果表明HiFi宏基因组测序可用于准确、完整地组装人类肠道菌群,包括不可培养的菌群。
结果
1、HiFi宏基因组测序组装出的cMAGs来自于不同的肠道微生物分类单元
本研究从公共的HiFi宏基因组测序数据库中获得了四个人类粪便样本。其中两个样本来自于素食个体,另外两个样本来自于杂食个体。此外,本研究利用Sequel II 平台,对一个健康的杂食的韩国人的粪便样本进行了HiFi宏基因组测序。相较于最近公布的一项利用ONT测序人类粪便宏基因组的研究而言,HiFi测序在数据量相似的情况下,可以获得更长的Read和更高的碱基质量(补充 图1)。
补充 图1
为了尽可能多的获得环化contigs, 本研究使用了三款组装软件分别为metaFlye, HiCanu和hifiasm_meta,他们分别组装出了2283,481和 590个环化contigs, 一共3354个。由于这些contigs可能包含有病毒基因组,质粒基因组或虽环化但不完整的基因组,该研究开发了一套生信流程用来筛选出真实可靠的原核基因组(图1 a)。
图1a
首先本研究根据已知的生物学先验知识和结构参数对环化的contigs进行过滤,即序列长度要大于100kbp, 序列要有超过100个GTDB数据库的标志蛋白(补充 图2 a b),包含有rRNAs序列,存在超过20种tRNA,同时组装过程中应没有bubble或者repeat。
补充 图2a
补充 图2b
补充 图2 c
尽管metaFlye组装出了最多的环化contigs,但是其中约97.7% (2,231)都在第一步过滤中被去掉了。hifiasm_meta, HiCanu和metaFlye各自组装出的环化contigs经过第一步过滤后分别剩下145个、 76个和52个(补充 图2 c)。本研究针对粪便样本使用了多款组装软件,组装结果含有大量冗余序列。因此需要通过序列间两两比对,将近源且一致(平均核苷酸一致度ANI>0.99且最大比对覆盖度>0.95)的冗余序列去除掉(补充 图2 d-g)。
补充 图2d
补充 图2e
补充 图2f
补充 图2g
基因组中的重复区域,可能会导致组装提前结束,进而导致组装结果虽是环化的contig, 但实际上是有gap的非完整基因组。由于参考基因组可能也是MAGs,因此很难通过同种比对发现这些组装结果中的有缺陷的基因组,除非参考基因组是通过单独培养组装获得的。因此,该研究利用人类肠道参考基因组数据库(human reference gut microbiome,HRGM)基于同种基因组序列间的一致性设计出一种过滤方法。该研究认为虽然HRGM数据库中参考基因组并不一定都是完整基因组,但是数据库中同一物种基因组所共有的核心contigs应该是来自于该物种的真实基因组。因此对于每一个环化的contig, 本研究首先确定它在HRGM数据库中的同一物种的近源基因组,以及它们的核心contigs. 然后将同一物种的核心contigs与本研究组装出的对应物种的环化contig进行比对,保留那些95%的核心contigs能够比对上的且HRGM数据库中有超过5个同种参考基因组的环化contigs (补充 图3 a b)。
补充 图3a、b、c
那些不满足前面过滤标准的环化contigs要明显比其对应单独培养组装出的参考基因组小(补充 图3 c),而且这些环化的contigs与其参考基因组做共线性比对也可以看出他们有明显的缺失(补充 图3 d-f)。总的来说,该研究的生信工作流程从最初组装的3354个环状contigs中过滤后保留了102个。
补充 图3d-f
之前有研究报道将GC偏移含量分布作为原核基因组组装结果评估的标准。但由于也有研究显示GC偏移含量分布模式并不是绝对唯一的,因此本研究不将其作为过滤标准。但也根据累积GC-偏移图谱的对称性将环化的contigs分成了5个水平:非常清楚, 清楚, 尚可, 很不明显和没有特征分布。
最终本研究获得了102个 cMAGs,它们可以作为人类肠道原核微生物的完成图水平的参考基因组。注意hifiasm_meta这个软件组装出了其中约88.2%的cMAG(图 1b)。
图1b
图1c
图1d
组装结果使用GTDB注释,获得了9 个门, 11个纲,14个目, 24个科, 52个属和84个种(图1 c d)。
2、利用HiFi宏基因组测序得到的cMAGs ,可以准确且完整(即使是较大基因组)
即使不考虑测序错误,由于水平基因转移和自发突变累积的遗传变异,从不同样本组装的同株原核基因组也很难完全相同。为了评估cMAGs的核酸序列准确度,本研究使用动物双歧杆菌(Bifidobacterium animalis),该物种相比于其他的肠道共生菌显示出显著较低的遗传变异水平。HRGM_Genome_1769(B. animalis)相比于HRGM数据库中的其他物种(包括可单独培养的物种),显示出比较低的单核苷酸变异频率(图 2 a)。该研究将B. animalis物种对应的cMAG(OMN01_MFL_0491)与其在RefSeq数据库中单独培养组装出的近源参考基因组(GCF_000224965.2)作比对。虽然这两个基因组来自于完全不同的时间和地点,有趣的是这两个基因组几乎完全一致(ANI > 0.9999 同时 比对一致覆盖度 > 0.9999)(图 2 b)。
图2a
图2b
图2c
图2d
本研究比较了B. animalis物种对应的cMAG 和HRGM中的参考基因组的SNV变异频率,并没有观察到显著的差异(图 2 c),说明SNV的产生主要是因为自发突变和短序列测序错误,HiFi测序几乎不会因为测序错误引入新的SNV。为了验证这一结论,该研究又根据SNV频率排序信息对比了77个cMAG和它们各自同种参考基因组的SNV频率差异,大部分都没有显著差异(图 2 d),即大多数HiFi数据组装出的cMAGs的SNV频率并不偏离其同源HRGM参考基因组的分布。
图2e
图2f
图 2g
该研究还对其组装出来的大片段序列进行了检测。四个Bacteroides属的cMAGs基因组大小超过了6Mbp,同时较大的七个cMAGs来自于韩国人样本(KR001),因为该样本的测序深度最深(图 2 e)。最长的cMAG 是KR001_HAM_0001(6,770,402 bp),对应物种是Bacteroides ovatus,其长度超过了99.58%(5,414)HRGM数据库中的物种基因组。之前的研究报道ONT平台组装出的最长 cMAG只有3,825,229 bp,因此KR001_HAM_0001目前是已公布的最长cMAG。为了进一步验证KR001_HAM_0001的完整性,又与其近源参考基因(RefSeq: GCF_009734165.1)组进行了比对,发现大部分区域都高度相似(ANI > 0.98 且比对覆盖度约0.80) (图 2 f)。此外,KR001_HAM_0001的SNV频率与其在HRGM数据库中的同种参考基因组间也没有明显差异(图 2 g)。综上,针对人类肠道宏基因组进行HiFi测序,能够组装出准确且完整的基因组,物种对应的基因组甚至可以超过6 Mbp。
3、对于一些无法单独培养的分类单元物种,可以用HiFi宏基因组测序组装出其完整基因组
根据已有研究报道,超过80%的肠道微生物是无法单独培养。根据HRGM, hGMB和NCBI数据库中参考基因组物种是否可单独培养的信息,对cMAGs进行分类,其中63个cMAGs对应的物种可单独培养,39个不可以(图 3 a)。63个可培养cMAGs中有24个对应的参考基因组组装结果不完整,即cMAGs提高了这些参考基因组的组装质量。使用GTDB对这些不可单独培养的cMAGs进行注释,注释结果各分类水平情况为:35个种,19个属,4个科,2个目(图 3 b)。
图3a、b
尽管RF39和TANB77目在HRGM数据库中显示它们各自有154个和120个物种,但截至目前还没有一个物种实现单独培养。本研究鉴定出其3个cMAGs属于RF39,9个cMAGs属于TANB77。HiFi宏基因组测序首次实现了从人类肠道中组装出大的且完整的无法单独培养的物种基因组。RF39是杆菌纲(Bacilli)下新确定的目,该目在GTDB中的分类情况与在NCBI中不一致(补充 图 6 a)。RF39目在杆菌纲的进化树中形成了一个独立的分支(图 3 c)。鉴于系统发育树和GTDB分类是基于相同的细菌标记蛋白(bac120)生成的,本研究重新使用一组独立的标记蛋白进行从头分类,有趣的是结果与之前一致(图 3 d)。接下来本研究又对RF39目和它的近源物种的基因组蛋白进行预测,并根据蛋白质注释结果进行层次聚类。RF39目的大部分物种都聚在了同一个簇,从功能方面也支持了其独立性(图 3 e f)。
补充 图 6a
图 3c
补充 图3d
补充 图3e
图 3f
TANB77是GTDB中定义的另一个新的目,它包含的物种在NCBI中通常被分类到梭菌目(Clostridiales)。使用同样的流程,本研究验证了TANB77目的独立性。总之,以上结果表明,利用HiFi宏基因组测序能够组装出属于人类肠道菌群中无法培养的原核物种的完整基因组。
4、HiFi cMAGs结果揭示了基因组中较难组装的区域大多是基因岛和rRNA
利用短读段二代测序获得的MAGs通常都包含很多gap,它们代表了基因组中较难组装的区域。重复序列和可移动序列对组装的正确性和连续性有着负面影响。由于cMAGs是环化的完整基因组,并没有gap,所以可以与二代测序组装出的同种基因组的MAGs进行共线性比对来确定较难组装的区域。使用cMAGs的同一物种的 MAGs(HRGM)对其进行覆盖度统计,发现了覆盖度较低的区域(图 4 a)。结果表明大部分1kbp窗口显示出> 80% 或≤20%的基因组覆盖度(图 4 b),可以看出覆盖度较好的区域与覆盖较差的区域有明显的区别。
已有研究表明,高度保守的序列(如rRNA)和可移动序列(如基因岛)很难通过二代测序组装出来,该研究的结果也证实了这一点(图 4 a)。此外,包含rRNA和基因岛的1kbp基因组窗口的覆盖度明显低于其他区域(图 4 c d)。由于在原核基因组中 rRNA的拷贝数平均只有4.2个且该序列相对较短,因此基因岛区域就成为宏基因组二代测序组装不出的MAGs的主要gap区域了。而本研究获得的cMAGs给探索基因岛区域所可能包含的新基因提供了机会。可单独培养的分类单元对应的基因组的基因岛区域注释率要比不可培养的要高(图 4 e),这也进一步说明完整基因组对基因岛注释的重要性。此外,HiFi宏基因组测序的read长度的中位数与基因岛区域长度的中位数相同或比它长。然而,ONT宏基因组测序的read长度的中位数并没有基因岛区域长度的中位数长(图 4 f)。这表明HiFi测序更有可能跨越完整的基因岛区域,进而保证可以正确的组装出基因岛区域。
图4a
补充 图4b
图4c、d
图4e
图 4f
研究结论
HiFi测序既保证了read的准确性也保证了其长度。此外,宏基因组HiFi测序也提高了cMAG的数量和质量。本研究通过宏基因组HiFi测序成功组装出了完整的环化的人类肠道原核基因组,且组装不需要binning步骤。本研究使用了三款组装软件,基于组装结果情况,推荐使用hifiasm_meta对HiFi宏基因组测序数据进行组装。本研究还设计了一种更加准确可靠的评估MAG完整性的流程。本研究无论是在可单独还是在不可单独培养的微生物上都实现了利用HiFi 组装出cMAGs。而cMAGs组装出了原先二代短读长难以组装出的高度保守序列(rRNA)和可移动序列(基因岛)。仅管目前HiFi宏基因组测序价格相对昂贵且需要更多的DNA量(>1.5μg,二代只需要约0.1μg),但这些缺陷随着技术进步都会被克服。