近年来,PacBio三代测序技术在医学上的应用越来越多,从最初的三代人重的位点检测到肿瘤研究领域的寻找融合基因,该技术极大推动了人类生命科学的研究。免疫系统的研究是医学研究的重要领域之一,免疫组库测序成为了解免疫系统的常用技术。传统的二代测序技术受限于其读长短,大部分的研究者把主要精力集中在免疫组库CDR3区测序,而三代技术利用其长读长的优势,可以获得整个免疫组库的全长序列。
接下来,我们就通过一篇讲解借助三代测序描绘人类免疫球蛋白重链位点基因组单倍型多样性的文献来了解三代测序如何更加精准的得到IGH的一些新的变异和等位基因。
★
★
• 文章题目:
A Novel Framework for Characterizing Genomic Haplotype Diversity in the Human Immunoglobulin Heavy Chain Locus
• 发表期刊:Frontiers in Immunology
• 发表时间:2020.09
研究背景
高多态性免疫球蛋白重链位点(IGH)内遗传变异的不确定性会影响抗体介导过程。由于基因座的复杂性,标准的高通量方法未能准确、全面地捕获IGH的多态性。研究者采用三代PacBio HiFi测序以及种新的生物信息学工具——IGenotyper,以一种单倍型特异性的方式来充分描述IGH的变异。
本研究采用了8个人类样本,包括两个单倍体细胞系和两个家系群体(6个样本),利用三代测序数据做了高质量组装,并对基因进行了注释,鉴定了2个新的结构变异和15个新的IGH等位基因。这为利用IG基因组数据来研究抗体介导免疫的群体水平变异奠定了基础,可以更好地理解疾病风险,同时,对疫苗和治疗的反应至关重要。
研究结论
1.利用新工具来鉴定IG的多样性
基于GRCh38单倍型以及与GRCh38不同含有额外复杂SV和插入的单倍型的数据,利用并构建开发了IGenotyper,对IGHV、IGHD和IGHJ区域(统称为IGH)进行二倍体组装本研究对8个样本进行了三代测序,采用RSII和Sequel测序平台,测序深度为557.9x (RSII)和12,006.4x (Sequel)。
图1 单倍体特异的定制化捕获和IGenotyper分析流程进行IGH变异检测
2.单体型和二倍体的组装性能评估
首先,研究者组装了单倍体的IGH,跨越IGHV、IGHD和IGHJ编码序列的平均CCS覆盖率为160.3%。与GRCh38相比,组装了1,009,792个碱基(98.7%)的IGH位点。序列之间的长度为177 ~ 3,787 bp。此外,还识别出220个潜在的indel错误。同时,还发现在基因IGHV1-69附近有一个2226 bp的串联重复序列。
图2 二倍体DNA样本的靶向长读长测序和组装
随后,对软件IGenotyper的二倍体样本IGH区域的组装性能进行评估,采用的样本为Yoruban (YRI; NA19240, NA19238, NA1239)和European (CEU; NA12878, NA12891, NA12892) trios家系,实验材料为IG位点内存在V(D)J重排事件的淋巴母细胞系(LCLs),软件分析的区域为非IGHV的IGH区域。软件对单个样本基于跨越多个杂合的SNVs突变的CCS reads来鉴定单倍体区块(haplotype blocks),随后对CCS reads进行单倍体划分及组装。结果表明,软件对样本NA19240和NA12878分别组装41和49个单倍体区段,其中,20/41和24/49个被鉴定为杂合,在杂合的区段中,两个样本的杂合位点分别为76.16和52.08。对组装的杂合和纯合的contigs统计表明对样本NA19240和NA12878分别成功组装1.8Mb和1.4Mb的区域。为了确定三代的数据准确性,作者还采用了Sanger测序、SMRT测序、fosmid克隆和Illumina双端测序进行验证,结果均表现出高的正确率。
表1 组装统计和单倍型特定组装的准确性评估
3.IGenotyper进行二倍体组装、基因注释及全变异检测
以单倍型方式组装二倍体基因组可以提高变异检测的准确性,并有助于对变异类型的全谱进行更大的解析。除了IGH的组装,IGenotyper还能检测SNV、Indels和SV。样本NA19240的57个IGHV基因中鉴定出79个非冗余等位分型,其中12个分型在IMGT中未发现,为新等位基因。在NA12878中,44个IGHV基因中得到了56个非冗余等位基因,其中3个为新基因。这两个样本鉴定的IGHV的等位基因分型已被其他方法证实。对于样本NA19240,在其IGHV基因鉴定2912个SNV, 49个Indels和11个SV,基于NA19240的父母基因型或者fosmids基因型验证了2,869/2,912 SNVs, 31/36 indels和11/11 SVs;类似的,在样本NA12878中也有较高的突变验证率。此外,在样本NA12878和NA19240的IGHV4-28到IGHV4-34区域还鉴定了新的SV突变,这些结果表明IGenotyper对IGHV区域变异检测的准确性。
图3 NA12878和NA19240的结构变异和IGHV基因等位基因的单倍型
4.多样本混样测序可重现组装和变异检测结果
靶向三代捕获测序由于单个样本测序数据少,可以进行多样本混样测序。通过对NA12878添加不同的标签(2-, 4-, 16-, 24-, 40-plex),来模拟不同的测序深度下的混样测序。从而评估测序深度对IGH位点覆盖、组装以及变异检测的影响。分析表明平均的覆盖度从308.7X (2-plex) 到15.5X (40-plex)。以深度最高的2-plex作为参考,其余各plex的平均组装覆盖率和序列一致性分别为99.27% (4-plex)到86.95% (40-plex),及 99.99% (4-plex)到99.99% (40-plex),检测的SNV从2,471 (2-plex)到1,936 (40-plex);结果表明混样测序在组织覆盖率、序列一致性及SNV检测的召回率上均较高。
图4 混样测序的组装覆盖度和变异检测评估
通过该文献,我们不难发现三代不仅具有长读长的优势,其单碱基的准确性上也大大提高,这对于研究者来研究复杂的可变区具有重要的优势。而永利集团3044之前三代全长BCR的数据也说明了这一点,准确性高达99.9%。
图5 永利集团3044三代全长BCR实测数据
永利集团3044作为三代测序的领跑者,一直在不断创新、不断突破。基于自身在三代测序领域的深厚沉淀,率先推出三代全长BCR测序,为广大科研者和临床医生提供免疫学领域最新的测序技术服务。
参考文献:
Rodriguez O L , Gibson W S , Parks T , et al. A Novel Framework for Characterizing Genomic Haplotype Diversity in the Human Immunoglobulin Heavy Chain Locus[J]. Frontiers in Immunology, 2020, 11:2136.