三代测序自上市以来,引起了非常高的热度,目前以PacBio和ONT为主,ONT平台在快速检测以及超长检测方面,目前是最有优势的。PacBio平台则结合了长读长与准确度的双重优势。通过对三代测序应用的总结我们可以发现,大部分的应用还是偏向于动植物基因组测序组装,在临床上的应用也是近年来逐步开始的,尤其是在2021年三代基因测序实现临床应用,贝瑞基因地贫检测产品率先落地,将三代测序推向临床。这意味着长读长测序发展关键时刻已至,但是三代测序新应用场景仍然有待挖掘。本文通过结合长读长测序和同步产生的甲基化修饰数据,研究了癌症基因组的单倍型、结构变异及甲基化特征情况,为三代测序的应用场景做了更多以及更深入的挖掘和开发。
背 景
到目前为止,大多数癌症基因组研究都是使用短读长测序仪进行的。因此,我们目前的知识主要局限于发生在基因组小规模区域的突变,即所谓的单核苷酸变体(SNVs)和短插入和缺失(InDels)。最近,在各种癌症类型的基因组中发现了更大的基因组结构变异(SVs)。预计这些SV具有同样多的生物学和临床相关性。例如,染色体倒位和易位都能产生致癌融合基因,如BCR-ABL,EML4-ALK和KIF5B-RET。在肿瘤抑制基因(如TP53,RB1和PTEN)中,经常发生大片段缺失,从而使这些基因的表达和功能失活。全基因组泛癌症分析联盟除了SNVs之外,还专注于大规模基因组结构变异。该联盟报告了38种癌症亚型的SV特征。尽管SV具有潜在的相关性,但传统的检测方法基于短读长测序数据对SV精确检测的有效性有限。事实上,传统的分析方法可以推断出SV的存在,但只能部分揭示它们的完整结构。为了实现对SV更直接和精确的检测,应采用长读测序来全面解析癌症基因组的各个方面。
研究策略
材料样本:冷冻的20例肺癌患者手术标本
测序策略:20例肺癌患者的长读长+短读长WGS,结合RNA-seq技术
分析策略:基因组、转录组、甲基化修饰信息,其中长读长测序可以同时进行单倍型分型、变异检测、甲基化修饰检测。
结 果
1.肺癌基因组单倍型分析
本研究使用了20例日本患者的非小细胞肺癌标本中分别获得的长读长和短读长的WGS数据,联合进行了相位分析。二代数据使用BWA-MEM联合GATK进行比对和SNP鉴定,长读长序列使用minimap2比对,根据前面鉴定的SNP信息利用WhatsHap进行分型,最终在单倍型水平上阐明体细胞SV和SNV的变异情况(图1)。
图1 单倍型相位分析
以案例S21(EGFR中的L858R突变作为驱动突变)为例,根据SNP信息,可以很好的进行单倍体分型(图2d),并且统计表明该正常基因组中检测到的56%的SNP被分配到获得的单倍型块(haplotype blocks)。进一步的对测序深度的评估,结果表明在20×-30×的序列深度下,构造块的数量似乎饱和到5000左右(图2e)。并且该研究认为测序数据至少20×的深度可能并不完美,但进行肿瘤相位分析仍然应该是合理的。
该研究针对分型结果的准确性,特定评估了两个给定SNP获得的单倍型块(haplotype blocks)的相互关系,结果表明肿瘤和正常基因组之间两个SNP的差异率与以前的结果相近,比较合理(图2f)。进一步通过将分型结果与另一项健康日本队列(东大/东京健康对照:THC)的研究结果进行了比较,结果表明98.7%的SNP-SNP关联是一致的(图2g)。这些结果表明,从肿瘤和正常基因组获得的相位信息是相当精确的,可以作为在单倍型水平上对基因组突变进行进一步分析的参考。
图2 代表性案例S21的阶段化结果及分型结果
2.20个癌症基因组的单倍型分析
通过与正常和癌症基因组的分型比较,结果发现,肿瘤的单倍型块的数目更少,N50更长,但其中中包含的SNP数目与正常组织的相近(图3a和b)。通过评估测序单倍型块与测序深度或测序读长之间的关联,结果表明,测序深度大致与相位块长度呈正相关(图3c;0.31 R2来自线性回归的值),再次表明足够的测序深度是获得长相位块的关键因素。并且检测到单个读取的长度与构建的相位块的长度之间的强相关性(图3d; 0.55 R2线性回归的值),且单个读取的长度应该比测序深度对产生的相位块有更大的贡献。
图3 20例正常和肿瘤基因组的分型结果及比较
通过评估了20个案例的单倍型块的精确生成,结果表明,在所有20例中,平均有78%的基因组区域对分阶段区块做出了贡献。其余22%的相位区块(低覆盖区域)无法覆盖,主要来自以低杂合子SNP为特征的区域。
图4 常染色体中1 Mb窗口内具有高(>0.75;上图)和低(<0.25;下图)覆盖位点的SNP密度的全基因组分布。红线表示 SNP 密度的平均值。
3.癌症突变特征
结果显示,从短读长测序分析结果中,没有发现各种类别突变的显著差异,例如SNV和SV,较大的染色体重排和CN畸变等。但通过单倍型分析,发现43%的点突变被映射到单倍型#1(HP1)或单倍型#2(HP2)(图5a)。同时研究发现,足够的长读长测序深度对于精准的分型,研究肿瘤的纯度和异质性非常重要。结果可以发现,当变异等位基因的频率较低由于没有足够数量变异和覆盖度,导致分型的成功率较低。当变异等位基因的频率(VAF)大于0.2时,变异被分型的总成功率和平均成功率分别提高到71%和50%。同时,对于结构变异,除倒置类型外,高达70%的SV被成功分配给单倍型块上(图5b)。至于倒置事件,只有高达30%是被分型成功的。然而,大多数未相位倒置(2241例中的1669例)起源于病例S16(一种大细胞神经内分泌癌)。
图5 突变及单倍型信息
4.癌症突变单倍型的生物学和临床推断
该研究为了阐明检测到的癌症突变与其单倍型背景的潜在生物学或临床相关性,关注了代表性癌基因和肿瘤抑制基因检测到的突变,选择了11种癌基因,9种肿瘤抑制基因和7种染色质重塑和剪接相关基因,已知在肺癌中经常发生突变,其突变模式和分型信息显示在图6c中。在所有检测到的病例中,所有SNV的关于EGFR基因突变的单倍型信息几乎可以完全解决(除了两个indel病例)。研究发现在病例S14的PTEN基因中具有很大的缺失,检测到跨越此SV两端的三个独立读取,从而将 HP2连接到 HP1(图6e)。这些结果表明,该基因区是杂合性(LOH)丧失的区域;一个是HP2和HP1之间的缺失,另一个是更广泛的区域的缺失。总的来说,对于案例S14,PTEN的基因组畸变和LOH的发生可能最初驱动了其致癌过程。在肿瘤进展过程中,可能已经获得了额外的PIK3CA突变,从而实现PI3K/AKT途径的完全激活。
此外,在某些情况下,研究可以确定位于邻近区域的不同基因中发生的多个突变的发生顺序。如图6f所示,读取的序列表示NKAIN4 3'UTR(chr20:63,240,923,VAF:0.42)和T >A在BIRC7外显子6(chr20:63,239,424,VAF:0.25)中存在或不存在两个突变C>A,按此顺序排列。长读长测序可以更灵敏地检测彼此相邻突变的发生。通过进一步延长单倍型区块长度,最终将检测到癌变突变的顺序,尽管许多都是“过客”突变( passenger mutations),但可以用于重建个体癌症的不同进化历史。
图6 基因突变的单倍型信息
5.单倍型水平上的转录畸变特征
该研究基于RNA-seq测序数据检测的SNP,鉴定了其转录本的单倍型起源。结果表明,RNA-seq的SNP信息与基因组的单倍型变异信息是一致的,精确的单倍型块在所有的案例中都得到了验证。根据RNA-seq数据,平均718个基因(1185个SNPs)在单倍型之间存在差异表达。其中,在4例样本中共发现的133个肿瘤特异性单倍型特异性表达基因(平均22个基因)在启动子或增强子区域存在调节突变,包括分别从病例S3(所谓的“超突变体”病例),S8,S10和S20中分别鉴定出的115,10,7和1个具有调节突变的基因。
例如在案例S10的CLN5基因示例中,在HP2中发现了启动子突变(图7a)。这种突变可以加强转录因子(TF)的结合电位,例如SNAI2,已知SNAI2是上皮 - 间充质转变(EMT)的主要调节因子之一。通过改变TF结合位点(TFBSs),这表明EMT相关因子可能调节CLN5转录而不是突变启动子中的原始TF组分。此外,仅在肿瘤标本中检测到HP1和HP2之间的基因表达不均匀(图7b)。确切地说,在同一肿瘤标本中,HP2中该基因外显子区域的六个阶段SNP显示出比HP1高得多的转录水平。
图7 案例S10的CLN5基因的单倍型及转录组分析结果
该研究通过进一步对所有20例病例进行DNA甲基化分析,结果表明平均发现32个单倍型特异性表达基因,HP1和HP2之间存在差异甲基化区(DMR)。例如病例S10的CLN5基因,在该基因上游12-kb的单倍型中鉴定出DMR(图8)。在HP2中,与HP1相比,检测到启动子突变并且mRNA被强烈转录,观察到局部DNA低甲基化(图8,右图)。总的来说,这些结果表明,对癌症中单倍型的基因组,表观基因组和转录组畸变进行综合分析是可能的,并且可以提供有关调节突变的基本信息,这些突变可能对它们所在的单倍型特异性基因表达产生明显的影响。
图8 案例S10的CLN5基因的单倍型甲基化信息
6.单倍型突变的染色体特征和肺癌基因组的历史推断
为了解决突变是否真的随机分布在单倍型上的这个问题,将突变特别丰富的基因组区域与相应癌症基因组的整体突变率进行比较。结果发现其中突变在统计学上显着偏向于其中一种单倍型。进一步评估了富突变的单倍型与肿瘤突变负荷(TMB)之间的相关性。其中,190个区域(每例1-75个区域)被确定在其中一个单倍型中优先携带超过80%的突变(图9a)。并且发现单倍型偏倚区域的比例特征性地依赖于癌症类型或组织学亚型(图9b)。
进一步推测了局部突变模式;特别是对于最相关的案例S2,其中20个SNV表现出显著的局部富集,所有14个单倍型分辨的SNV都被分配给HP1。这些突变具有G>A单碱基替换的主要突变模式,对应于APOBEC突变特征(图9c)。该观察表明,该基因组区域暴露于与其他区域不同的突变压力。更一般地说,我们研究了在其他区域是否可以找到类似的碱基替代模式。我们发现,C>T/G>A和C>G/G>C单碱基替换往往以单倍型偏倚的方式成为突变富集区域中的主要突变模式(图9d)。我们还发现,这种特征是肺腺癌所独有的。在其他癌症类型中,突变模式与整体基因组突变模式相当相似(图9d)。
图9 肺癌基因组中发生的单倍型突变偏好性
最后针对结构变异(SV)进行统计,结果发现,在这些SV分型块中,大多数SV不均匀地分布在一个单倍型上(图10e, f)。SV 发生的机制可能因 SV 类型而异,与其他SV类型相比,倒位和重复类型往往以单倍型特异性方式发生。这些结果还表明,单倍型之间特征的差异是单倍型之间发生不同突变事件的原因。
图10 单倍型SV特征分析
最后,研究还对偏倚突变分布的可能原因进行了观察分析和解析,同时分析了染色体碎裂(chromothripsis-like)事件标志的特征。更多细节,详情见正文。
总 结
本研究通过对20名日本患者的非小细胞肺癌标本进行单倍型分析,得出了以下几点主要结论:
通过组合使用短读和长读测序数据,获得了N50长度为834 kb的长单倍型块,一致性率>99%。
通过分析获得的分型信息,发现了几个癌症基因组拥有突变不均匀分布到两种单倍型之一区域的突变特征。
癌症基因组中发生了大规模染色体重排事件,但重排尺度范围较小,且仅发生在其中一条染色体上,这些事件解释了观察到的变异的不均衡分布特征。有趣的是,这些事件是EGFR突变阳性肺腺癌的特征。
长读长数据中的表观基因组学和转录组学数据的进一步整合表明,单倍体染色体的转录组或表观状态不都是等效的。晚期的癌症的基因组畸变,在不同的染色体背景下是以单倍型特异性的方式进行的。
参考文献:
Sakamoto, Y., Miyake, S., Oka, M. et al. Phasing analysis of lung cancer genomes using a long read sequencer. Nat Commun 13, 3464 (2022). https://doi.org/10.1038/s41467-022-31133-6