PacBio测序即单分子实时测序,其以SMRT Cell为载体进行测序反应,位于ZMW孔底部的荧光信号检测区锚定了DNA聚合酶和一条DNA片段,并通过不同荧光标记的核苷酸及荧光激发的过程,将不同碱基的信号捕捉下来,从而得到DNA序列信息。
SMRT cell ZMWs 荧光基团
PacBio Sequel IIe
与传统的二代测序技术相比,三代PacBio测序技术具有超长读长、无需扩增、无GC偏好性、可以直接检测碱基修饰等优点,在科研与医学相关领域得到广泛应用。PacBio最新推出的Sequel II(Sequel IIe)测序平台共有两种测序模式,即CLR测序和HiFi测序。
1.1 CLR测序
CLR测序模式称为超长测序模式,其插入片段长度在30Kb以上,产生的数据是基于单循环测序的结果,一个插入片段只测序一次,准确率和PacBio 常规测序保持一致,在85%左右。CLR测序可以利用自身的数据进行纠错,当数据深度达到 50X 左右时,一致性序列准确性超过99.999%(QV50)。
CLR 测序示意图
通过构建40Kb文库,菲沙PacBio Sequel II平台CLR测序最高产出达到220Gb,平均150Gb;Subreads 平均读长20Kb,N50平均超过29Kb,具体见下表。
CLR下机数据统计表
1.2 HiFi测序
PacBio HiFi Reads是准确度超过Q20(>99%),并且还能兼顾超过10kb,甚至可达20 kb的长读长测序模式。在HiFi测序模式下,酶读长与CLR测序模式相当甚至更长(超过100 Kb),但插入片段只有10-20 Kb,因此测序时酶会绕着DNA模板(插入片段)进行滚环测序,即插入片段会被多次测序。这样单次测序中造成的随机测序错误,可以通过算法进行自我纠错校正,最终得到高准确度的HiFi Reads。
HiFi测序示意图
通过构建15-20Kb的文库,菲沙PacBio Sequel II平台HiFi测序CCS原始数据超过500Gb,平均产出380Gb;HiFi最高产出38Gb,平均接近19Gb;HiFi平均读长15Kb,N50接近17Kb,具体见下表。
HiFi下机数据统计表