DNA甲基化是发现最早、研究最深入的表观遗传调控之一,在DNA序列不改变的前提下,DNA甲基化能引起染色质结构变化,改变DNA与蛋白质的互作方式,从而调控基因表达。经过几十年的发展和技术更新,DNA甲基化检测经历了BS、RRBS、WGBS、850K芯片等技术的更迭,现已进入单分子甲基化检测时代。
近日,集读长与准确性为一体的HiFi测序迎来重大更新,其无需修改现有建库和测序流程,即可实现对5mC甲基化的直接测序,这使得我们可以更加简便的捕获甲基化信息,进而探索基因组新维度。
PacBio测序平台直接检测5mC甲基化
基于此,为使更多科研学者了解HiFi甲基化的原理与应用,我们对HiFi甲基化检测常见问题进行系统梳理,以雍读者。
Q1
HiFi进行甲基化检测的原理是什么?
PacBio平台测序有4种荧光标记,分别标记4种dNTP,其聚合酶锚定在测序芯片的底部;当DNA链与酶结合时,进行测序,测序时,荧光dNTP与酶、DNA模板形成复合物,会短暂的结合,这个过程中,当聚合酶遇到模板上甲基化的A、C等碱基时,聚合的速度就会明显变慢,并且对应的光谱特征会发生改变,这使得可以直接测A的甲基化、C的甲基化、C的羟甲基化等,具体见下图。
Q2
为什么说5mC检测是HiFi近期的重大更新?
在2020年以前,PacBio甲基化检测的重点主要集中在6mA和4mC上(所需的测序深度较高),所发的文章和项目也大多是微生物或小基因组。而在真核生物中,5mC是最常见的甲基化修饰,其中哺乳动物多发生在CpG二核苷酸序列上,植物甲基化5mC类型有CpG、CHG、CHH。
2021年2月份,PNAS上报道了一篇基于聚合酶信号特征的新算法,在人鼠中CpG位点的5mC检测准确率和敏感度皆在90%以上。而此次PacBio更新的SMRT Link 11.0,能实现CpG类型的5mC直接测序,这必然可以促进动植物甲基化的研究,也会更好地有助于理解动植物的转录调控。
Q3
如何从HiFi测序数据中获得5mC甲基化信息?
从HiFi数据中获得5mC甲基化信息,分为两种情况,一种是之前测过的HiFi数据,另一种是准备测的HiFi数据。
(1)已测过的HiFi数据
对于之前测过的HiFi数据,我们找到当时的subreads的bam文件,然后利用Primrose软件进行5mC甲基化分析,具体流程为subreads.bam--all kinetics.ccs.bam--5mc.ccs.bam。subreads.bam转all kinetics.ccs.bam命令(在Subreads的bam文件中,每条序列都记录着每个碱基的相邻碱基时滞(Inter Pulse Duration, IPD, ip tag)和峰宽(Pulse Width,pw tag)的信息。
通过上述命令转换后,kinetics.ccs.bam文件中每条ccs序列都会带上该序列正链(forward)和反链(reverse)的ip (fi,ri)和pw (fp,rp)标签)
all kinetics.ccs.bam转5mc.ccs.bam命令。直接运行primrose,输入文件为kinetics.ccs.bam,生成5mc.ccs.bam。这一结果会去除4个kinetics标签,生成2个碱基修饰相关标签(Mm和Ml)。
(2)准备测的HiFi数据
新样本准备测HiFi时,只需SMRT Link Run Design 中选择 5mC 检测,Sequel II 和Sequel IIe 系统将会在 .bam 文件中自动输出带有标签的 HiFi 数据,这些标签包括 CpG 位点 5mC 甲基化的位置和概率信息(文件大小仅比之前增加5%)。
Q4
HiFi检测的5mC甲基化结果文件怎么解读?
在primrose分析后的5mc.ccs.bam文件中,一条序列里面红色的C,代表对应碱基有5mC甲基化修饰,它的Mm用samtools view的话,显示为:Mm:Z:C+m,4,3,5,0,6
两个分号中Z代表该tag的数据类型是字符串,其中C+m,代表在‘+’链上存在C碱基的甲基化(m),其数字解读方式为,在所有C碱基中,跳过4个未修饰,为第一个修饰碱基,再跳过3个,为第二个修饰碱基,再跳过5个....以此类推。
Ml标签则对应Mm中修饰碱基个数的8位整形数组,其值在0-255间,表示对应碱基存在修饰的概率。若值为n,则对应碱基存在修饰的概率在 n/256到(n+1)/256之间。
Q5
获得5mC文件后,如何进行后续分析?
HiFi测序,primrose分析后的bam文件,代表的是全基因组序列的甲基化信息。在此基础上,我们需要先与参考基因组进行比对(使用minimap软件),获得比对后的Aligned bam文件后,再利用pb-CpG-tools软件去获得基因组上某个位置发生甲基化的概率信息。
最后,针对单个样本,我们可以绘制基因组圈图,来展示不同位置的甲基化程度;针对多样本,我们可以进行差异甲基化的比较、也可进行甲基化与其它组学的关联分析。
Q6
HiFi检测5mC需要多少×的测序深度?
根据PacBio官方测试结果,当HiFi数据在10×以上时,基于HiFi数据检测的甲基化结果与WGBS结果就有良好的一致性,且随着测序深度的增加,相关性系数逐渐趋于平缓。因此,HiFi检测5mC,10-15×的测序深度即可。
Q7
HiFi检测5mC的灵敏性和准确性怎么样?
以人类样本为测试数据,比较了EMSeq、WGBS、ONT、HiFi等检测5mC的一致性,结果表明HiFi检测结果与其它检测结果的相关系数超过90%,这证实了HiFi检测5mC的灵敏性与准确性。
Q8
相比于其它检测技术,HiFi检测5mC的优势有哪些?
现有的甲基化检测技术,要么读长太短,要么测序准确率不够,并且很难区分单体型的甲基化信息。而HiFi检测5mC,在继承上述检测技术的优势时,还可以做到区分单体型的甲基化信息,使得在单倍型水平分析甲基化差异成为可能。
Q9
HiFi检测5mC甲基化可以有哪些应用?
如上所述,HiFi检测5mC甲基化数据深度要求低、覆盖度广、可以进行甲基化phasing,这就使得我们可以测一次HiFi数据,既可以完成基因组组装、还可以进行变异检测与甲基化分析,这可以为物种的深度解析提供全面辅助。此外,基于甲基化phasing结果,我们可以挖掘等位基因的差异甲基化、追寻亲本印记、寻找印记基因,这将有助于研究学者在更高的维度上去解析物种发育发育、疾病起因、重要表型的遗传学机制等。
Q10
HiFi检测5mC甲基化的不足点有哪些?
虽然相比于其它检测5mC甲基化的技术,HiFi有很多优势,但与之配套的生信分析软件还处于原型中,所以目前HiFi检测5mC甲基化还存在以下不足点:
数据的有效利用率只有50%。从HiFi序列的kinetics标签可以发现,实际上每条ccs,都会同时记录正向和反向序列的ip和pw。所以理论上,是完全可以对DNA的两条链,分别产生C+m和C-m类型的Mm tag,而目前软件的输出只有正向序列的信息。
对于算法准确性的描述比较模糊。PacBio Github页面只给出了非常概括性的统计量,但并没有描述MI值多高会被记为阳性,具体的过滤标准如何。
注:部分问答信息来源于PacBio及其代理商的技术资料。
总 结
HiFi测序带来的革命性突破使得其在人类、动植物、微生物等的研究中得到广泛应用,而此次更新的5mC甲基化直接检测,会加速HiFi在表观遗传调控领域的应用,同时对于HiFi在医学研究中的应用也有重要推动作用。