文章:Generating lineage-resolved, complete metagenome-assembled genomes from complex microbial communities
期刊:Nature Biotechnology
影响因子:54.908
发表时间:2022年1月
研究对象:寄生虫感染的绵羊粪便样品
研究技术:Pacbio HiFi、Hi-C、WGS short reads
本研究对寄生虫感染的绵羊粪便宏基因组进行测序,得到短序列和HiFi数据量分别是154G和255G,同时对该样品还进行了Hi-C测序,该研究利用HiFi数据进行metaFlye组装,然后使用bin3c软件对HiFi contigs和Hi-C linkage数据进行分箱,得到428个完整度超过90%的MAG,其中有44个MAGs是单个成环的contigs。为了分析密切相关的菌株(谱系),研究者开发了MAGPhase计算工具,它通过区分数百上千碱基基因组序列中的变异单倍型来分离相关生物的谱系。MAGPhase共计识别了220个谱系分辨率的MAGs,并且绘制测序深度覆盖度图验证单个谱系的准确性。这种解析复杂微生物群落中密切相关微生物的能力提高了生物合成基因簇的识别以及将移动遗传元件及其宿主基因组进行关联的精确度。在该研究中,研究人员确定了1400个完整的和350个部分完整的生物合成基因簇,其中大部分是新发现的。以及鉴定出424(298)个潜在的宿主-病毒(宿主-质粒)关联。
研究背景
自然环境中,大多数微生物基因组很难被分离培养,而常规的宏基因组大多是以定量的方法解析表型差异,要想从功能基因上解析引起表型差异相关的作用机制,这就对从复杂微生物群落中生成亲缘关系相近的高质量完整的宏基因组组装基因组(MAG)带来了挑战。微生物群体中往往包含大量密切相关的不同谱系微生物,且生物多样性高,各物种丰度差异大,此外,结构变异菌株的普遍存在增加了组装难度。二代宏基因组由于读长过短,很难从复杂微生物群落中生成高质量完整MAG,而Pacbio CLR产出的subreads又存在错误率高问题,研究者对关于CLR和HiFi数据对组装质量的提高做了验证,研究人员发现长读长高精准的HiFi测序与Hi-C分箱相结合能够解决这一挑战。
研究结果
1、羊肠道微生物组装和分箱
本研究对1个寄生虫感染的绵羊粪便样品进行测序,得到了极深度的255G HiFi reads、154G WGS short reads以及同样品的32G Hi-C数据。此外,从原始HiFi reads中提取subreads生成一系列“pseudo-CLR”(pCLR)来对HiFi和CLR reads进行公平的比较。HiFi reads组装得到57,259个contigs,N50:279kb,其中127个contigs满足高质量草图MAG标准,有44(35%)个发现闭环。除了真核生物外,pCLR contigs平均长度要高于HiFi contigs,然而除了“no-hit”,pCLR总组装长度均低于HiFi组装,pCLR组装平均有61个高质量草图基因组,其中平均有22个达到环化,和HiFi结果相比分别减少了48%和50%。两者的分箱结果表明,HiFi数据集比pCLR数据集能产生更多地低覆盖(小于10X)完整MAGs,HiFi数据集在低丰度物种的组装上表现更好。
表1 HiFi和3个pCLR数据组装和分箱结果统计
扩展数据图1:pCLR和HiFi组装在contig水平比较
图1:在样本中HiFi完整MAG组装出了相对丰度较低的物种
2、鉴定谱系分辨率MAG
使用GTDB-TK软件将HiFi和pCLR MAGs分类为预测的系统发育,分别产生197和187个属分类,15和14个门分类。有22个属和1个门是HiFi数据集独有的,还确定了对于单个物种分类单元HiFi比pCLR有更多的bins,从Clostridia class的结果中发现了pCLR数据更容易将高度相似的微生物基因组折叠成一个MAG,这一结果在reads深度覆盖图中得到了证实。pCLR的reads覆盖深度出现不均匀的现象,相比之下,HiFi bins在10X、20X、33X处有非常均匀的覆盖率,这表明该组装在这个丰度范围内已经解析了物种或菌株水平的谱系。通过最近邻距离分析鉴定出HiFi中18MAGs和pCLR中6个具有eANI≥93%的相似度,这表明序列内容和结构变异的差异可能会在容易出错的reads的组装中丢失。
短reads比对无法区分真正的多态位点,特别是在高度重复和直系同源基因区域,因此,研究人员开发了一个新的算法MAGPhase,pCLR bins中大多数MAGs具有多个单倍型等位基因,据统计平均有219个MAGs,占总数的65%,这些代表了混杂的谱系。相比之下,大多数HiFi MAG(220个)具有0个替代单倍型,这表明许多谱系被HiFi组装很好地解析或在样本中没有可检测到的多态性亚群。
扩展数据图2:MAG分类树
图2:使用MAGPhase对宏基因组进行SNP单倍型检测
表2 MAGPhase的单倍型检测结果
3、HiFi精度对生成完整MAG的影响
将HiFi reads比对回MAG,统计不同完整度分类的MAG的reads占比,结果显示,5.7%的HiFi reads比对到谱系解析的完整MAGs,18%和7%的reads分别比对到完整MAGs和其他低质量MAGs。83%的reads映射到细菌contigs,其中7%的HiFi reads被映射到了谱系解析的完整MAGs。然而63%的alignments是不满足>50% SCG完整度的MAG。这些数据表明,我们的从头谱系解析的完整 MAG 并不代表我们数据集中最丰富的谱系,而是可能通过样本中基因组序列的同质性进行分层,从而使这些谱系更容易在较低的深度覆盖情况下被组装。
从复杂样本中提取基因组所需的测序深度通常不是先验已知的,所以本研究设计一系列取样(0.1-1),以减少序列深度对微生物组分析的限制,同时探究序列深度与谱系解析完整 MAG生成之间关系的分析。
图3:不同HiFi覆盖深度的MAG组装对比
4、功能遗传学分析的改进
生物合成基因簇BGCs在零散的组装中难以识别,通过预测生物合成基因簇BGCs来评估HiFi reads在宏基因组功能注释中的优势。本研究使用antiSMASH在HiFi组件中识别了 1400个完整和350个部分完整的BGCs。据统计这代表了宏基因组组装中报告的最大数量的完整BCGs。几乎所有已识别的BGCs都被归类为新的,说明长读长用于探索新的天然产物的能力。
扩展数据图5:生物合成基因簇分析
5、提高可移动遗传元件关联分析的分辨率
通过HiFi reads和Hi-C数据探索病毒和宿主之间的关联,利用Hi-C数据探索质粒和宿主之间关联,使用SCAPP质粒组装工具,在HiFi组装中鉴定出了5528个候选质粒contigs,和298个质粒-contig关联。预测出了6个质粒contigs和25个候选细菌宿主,其中一个质粒栖息在13个不同的细菌属中,表明该质粒的属间流动性。还预测出质粒contigs和三个古菌属之间的关联,包括Methanobrevibacter 和 Methanosphaera,以前不知道它们携带天然存在的质粒。这些结果强调了HiFi组装和Hi-C接触映射组合对于解析移动遗传元件和宿主关联的价值。
图4:HiFi reads改善了移动遗传元件与候选宿主物种的关联