宏基因组是研究微生物群落的有效工具,但其难以将序列“归类”到群落组成中的物种和菌株水平。Hi-C数据中顺式互作频率远大于反式互作频率,这一特征被广泛应用到辅助基因组组装,用于构建染色体级别的基因组。
同理,基于顺式互作(同一微生物细胞的互作)远大于反式互作(不同微生物细胞间的互作),也可以将宏基因组中的contigs进行聚类,得到每种微生物基因组聚类的结果。同时还能根据Hi-C数据提供的contig间的互作信息,以此来预测plasmid等移动元件的宿主菌。
Meta Hi-C技术能对复杂环境中的微生物基因组的分析提供极大的帮助,但需要注意的是在Meta Hi-C分析项目实操中有着众多大大小小的“坑”。下面对Meta Hi-C聚类过程中的遇到的一些“坑”进行介绍。
“避坑”操作一
在常规Hi-C数据分析中,Hi-C下机数据经过原始数据质控后,我们会将Hi-C clean data比对到参考基因组进行数据比对和过滤。
然而在Meta Hi-C数据分析第一步Meta Hi-C数据比对及过滤就会遇到拦路虎:
1. 因为微生物群落环境的复杂性,且主流宏基因组contigs组装是基于二代测序技术,得到contigs数目较多(数十万)且contigs长度较短(contig N50 ~1kb),会导致基于这些contigs的聚类运算的复杂度增加。
2. Hi-C reads在比对到宏基因组contigs时,对于没有酶切位点或者酶切位点数过少的contigs(宗其原因还是contig长度太短),Hi-C的reads支持数很少甚至没有,那么Hi-C reads将无法为这些contig提供足够多的互作信息来将它们进行聚类。
教你一招来避坑:基于以上情况,我们可以在Meta Hi-C数据比对及过滤前将长度较短,酶切位点数过少的contigs先从宏基因组 total fasta中剔除,比如在已报道的宏基因组Hi-C聚类瘤胃微生物文章中,contigs按照以下参数过滤:We filtered out contigs that were <2 kb in size, or which contained fewer than 10 restriction sites for the relevant enzyme[1](标准略严格),contigs过滤后还可以降低聚类过程中的复杂度,提高最终聚类结果的准确性和聚类的速度。
目前宏基因组Hi-C主流聚类有以下:基于宏基因组contigs进行Hi-C聚类[2-3],基于3C read组装的contigs进行3C聚类[4]。
文章中Meta Hi-C聚类的软件使用较多的主要包括MetaPhase和bin3C。两者在前期数据的比对和过滤方面都和正常的Hi-C数据处理一致,没有特别之处;MetaPhase和bin3C的输入都是比对过滤后的bam文件,但是需要注意的是bin3C输入的bam文件在去冗余之后需要按照ID重新进行排序,即(sort -n),而MetaPhase则不需要此步骤。
“避坑”操作三
bin3C使用的是MCL(Markov Cluster)聚类算法,无需设定聚类的目标数目,算法会在聚类过程中自动判断某一个cluster的分类完成;而Metaphase使用的是分层聚类(hybrid clustering algorithm)的方法,进行聚类的时候,需要设定聚类的数目(类似于LACHESIS进行基因组辅助组装,需要设定染色体数目),算法聚类到指定的cluster数目为止。因此在使用MetaPhase进行Meta Hi-C进行聚类时,最好提前对完成的contig序列进行物种成分分析,得到大致的物种分类数目(从分类的各个层级进行测试,纲目科属等),然后以此数目为中心设置多个参数同时进行聚类分析,最终通过比较各个参数中聚类cluster的完整性、污染度和互作热图等来选取最佳的聚类结果。
注:分层聚类算法
“避坑”操作四
最后MetaPhase和bin3C都需要注意的“坑”,则是在聚类后关联contigs和clusters时,各个cluster的丰度在该环节不可忽视。由于宏基因组中的物种丰度变化极大,因此在考虑contigs和clusters间的关系时,除了正常的校正之外,还需要添加丰度相关的校正。
注:图形聚类算法原理,其中点代表contigs,contig间的联系会根据contig大小和丰度等进行校正
从上述可以看到,Meta Hi-C对宏基因组后续分析有极大的帮助,但在实际项目聚类时有许许多多的“坑”需要注意。后续的plasmid,integron等的注释也是如此“险象环生”,永利集团3044经实战经验,已帮您摸清这些“坑”,可保您的项目顺利避开这些“坑”。
永利集团3044专注于Hi-C技术在科研中应用和开发,基于多年丰富的微生物Hi-C项目经验,开发了宏基因组Hi-C实验和分析流程。宏基因组Hi-C可提升宏基因组组装结果,关联可移动遗传元件与其宿主微生物基因组,是深入解析微生物群落中耐药基因等功能元件来源、传播与宿主选择规律的不二选择。
参考文献:
1.Stewart R D, Auffret M D, Warr A, et al. Assembly of 913 microbial genomes from metagenomic sequencing of the cow rumen[J]. Nature communications, 2018, 9(1): 870.
2.Burton J N, Liachko I, Dunham M J, et al. Species-level deconvolution of metagenome assemblies with Hi-C–based contact probability maps[J]. G3: Genes, Genomes, Genetics, 2014, 4(7): 1339-1346.
3.DeMaere M Z, Darling A E. bin3C: exploiting Hi-C sequencing data to accurately resolve metagenome-assembled genomes[J]. Genome biology, 2019, 20(1): 46.
4.Marbouty M, Cournac A, Flot J F, et al. Metagenomic chromosome conformation capture (meta3C) unveils the diversity of chromosome organization in microorganisms[J]. Elife, 2014, 3: e03318.