澳门·永利集团(3044-VIP认证)网站-Best Platform

市场动态MARKET DYNAMICS

宏基因组Hi-C实战分析“避坑”操作指南

发布时间：2019-12-17 16:04:26阅读次数：次分享到：

宏基因组是研究微生物群落的有效工具，但其难以将序列“归类”到群落组成中的物种和菌株水平。Hi-C数据中顺式互作频率远大于反式互作频率，这一特征被广泛应用到辅助基因组组装，用于构建染色体级别的基因组。

同理，基于顺式互作（同一微生物细胞的互作）远大于反式互作（不同微生物细胞间的互作），也可以将宏基因组中的contigs进行聚类，得到每种微生物基因组聚类的结果。同时还能根据Hi-C数据提供的contig间的互作信息，以此来预测plasmid等移动元件的宿主菌。

Meta Hi-C技术能对复杂环境中的微生物基因组的分析提供极大的帮助，但需要注意的是在Meta Hi-C分析项目实操中有着众多大大小小的“坑”。下面对Meta Hi-C聚类过程中的遇到的一些“坑”进行介绍。

“避坑”操作一

在常规Hi-C数据分析中，Hi-C下机数据经过原始数据质控后，我们会将Hi-C clean data比对到参考基因组进行数据比对和过滤。

然而在Meta Hi-C数据分析第一步Meta Hi-C数据比对及过滤就会遇到拦路虎：

1. 因为微生物群落环境的复杂性，且主流宏基因组contigs组装是基于二代测序技术，得到contigs数目较多（数十万）且contigs长度较短（contig N50 ~1kb），会导致基于这些contigs的聚类运算的复杂度增加。

2. Hi-C reads在比对到宏基因组contigs时，对于没有酶切位点或者酶切位点数过少的contigs（宗其原因还是contig长度太短），Hi-C的reads支持数很少甚至没有，那么Hi-C reads将无法为这些contig提供足够多的互作信息来将它们进行聚类。

教你一招来避坑：基于以上情况，我们可以在Meta Hi-C数据比对及过滤前将长度较短，酶切位点数过少的contigs先从宏基因组 total fasta中剔除，比如在已报道的宏基因组Hi-C聚类瘤胃微生物文章中，contigs按照以下参数过滤：We filtered out contigs that were <2 kb in size, or which contained fewer than 10 restriction sites for the relevant enzyme[1]（标准略严格），contigs过滤后还可以降低聚类过程中的复杂度，提高最终聚类结果的准确性和聚类的速度。

“避坑”操作二

目前宏基因组Hi-C主流聚类有以下：基于宏基因组contigs进行Hi-C聚类[2-3]，基于3C read组装的contigs进行3C聚类[4]。

文章中Meta Hi-C聚类的软件使用较多的主要包括MetaPhase和bin3C。两者在前期数据的比对和过滤方面都和正常的Hi-C数据处理一致，没有特别之处；MetaPhase和bin3C的输入都是比对过滤后的bam文件，但是需要注意的是bin3C输入的bam文件在去冗余之后需要按照ID重新进行排序，即（sort -n），而MetaPhase则不需要此步骤。

“避坑”操作三

bin3C使用的是MCL（Markov Cluster）聚类算法，无需设定聚类的目标数目，算法会在聚类过程中自动判断某一个cluster的分类完成；而Metaphase使用的是分层聚类（hybrid clustering algorithm）的方法，进行聚类的时候，需要设定聚类的数目（类似于LACHESIS进行基因组辅助组装，需要设定染色体数目），算法聚类到指定的cluster数目为止。因此在使用MetaPhase进行Meta Hi-C进行聚类时，最好提前对完成的contig序列进行物种成分分析，得到大致的物种分类数目（从分类的各个层级进行测试，纲目科属等），然后以此数目为中心设置多个参数同时进行聚类分析，最终通过比较各个参数中聚类cluster的完整性、污染度和互作热图等来选取最佳的聚类结果。

注：分层聚类算法

“避坑”操作四

最后MetaPhase和bin3C都需要注意的“坑”，则是在聚类后关联contigs和clusters时，各个cluster的丰度在该环节不可忽视。由于宏基因组中的物种丰度变化极大，因此在考虑contigs和clusters间的关系时，除了正常的校正之外，还需要添加丰度相关的校正。

注：图形聚类算法原理，其中点代表contigs，contig间的联系会根据contig大小和丰度等进行校正

从上述可以看到，Meta Hi-C对宏基因组后续分析有极大的帮助，但在实际项目聚类时有许许多多的“坑”需要注意。后续的plasmid，integron等的注释也是如此“险象环生”，永利集团3044经实战经验，已帮您摸清这些“坑”，可保您的项目顺利避开这些“坑”。

永利集团3044专注于Hi-C技术在科研中应用和开发，基于多年丰富的微生物Hi-C项目经验，开发了宏基因组Hi-C实验和分析流程。宏基因组Hi-C可提升宏基因组组装结果，关联可移动遗传元件与其宿主微生物基因组，是深入解析微生物群落中耐药基因等功能元件来源、传播与宿主选择规律的不二选择。

参考文献：

1.Stewart R D, Auffret M D, Warr A, et al. Assembly of 913 microbial genomes from metagenomic sequencing of the cow rumen[J]. Nature communications, 2018, 9(1): 870.

2.Burton J N, Liachko I, Dunham M J, et al. Species-level deconvolution of metagenome assemblies with Hi-C–based contact probability maps[J]. G3: Genes, Genomes, Genetics, 2014, 4(7): 1339-1346.

3.DeMaere M Z, Darling A E. bin3C: exploiting Hi-C sequencing data to accurately resolve metagenome-assembled genomes[J]. Genome biology, 2019, 20(1): 46.

4.Marbouty M, Cournac A, Flot J F, et al. Metagenomic chromosome conformation capture (meta3C) unveils the diversity of chromosome organization in microorganisms[J]. Elife, 2014, 3: e03318.

上一条： 都2020年了，你还只做单个全长转录组研究？

下一条： 三代测序下，“国之瑰宝”中草药基因组研究的新思路

澳门·永利集团(3044-VIP认证)网站-Best Platform

农学科研

医学临检

市场与支持

关于菲沙

加入我们

宏基因组Hi-C实战分析“避坑”操作指南