Hi-C技术发展至今,为三维基因组研究提供了强有力的技术支撑,但是随着研究的深入,对于基因组较大的物种,得到的全基因组互作信息庞大,给深入分析目标区域互作带来了一定的困难,一定程度上也造成数据的浪费和成本的增高。越来越多的研究需要专一且深入分析目标局部区域的互作数据,某些互作强度相对较弱但又非常重要的互作可能会被淹没在全基因组互作信息中,因此为了解决数据分析靶向性的问题,人们开发了捕获Hi-C(Capture Hi-C,CHi-C),并将其运用到大型基因组或大样本量的三维结构研究中。
Capture Hi-C建库流程基于常规Hi-C,仅在获得的Hi-C文库基础上增加一步目标片段捕获的过程,简要实验流程即是先按照所要研究的目标区域设计捕获探针,可以是某一固定区域,比如所感兴趣的基因区域,或者是某一系列区域,比如启动子区。探针设计好之后即可进行液相捕获,封闭Hi-C文库两端接头序列,避免接头序列产生错误捕获,然后利用捕获探针结合封闭好的Hi-C文库,使用链霉亲和素磁珠吸附捕获探针结合的Hi-C文库,再将未结合的Hi-C文库清洗掉,最后经PCR扩增即可获得可用于上机测序的Capture Hi-C文库。
由于是针对特定区域的互作进行捕获,随着测序深度的增加,该区域的数据信息会大大增加,可以使原本微弱的互作信息得到足够放大,因此可对某一特定区域的互作进行更深入的分析。
下面这篇2018年发表在Nature Genetics期刊的文章则是利用Promoter Capture Hi-C深入研究启动子与调控区域的互作,结合WGS、RNA-seq、TCGA数据库信息分析非编码调控区域的突变通过影响空间互作而引发结直肠癌。
CHi-C获得与启动子存在显著互作的潜在顺式调控元件(cis-regulatory elements, CRE),联合分析与癌症发生相关的单核苷酸突变(SNV)和拷贝数变异(CNV)以及基因表达量信息。当CRE正常时,互作基因的表达量正常;当CRE发生SNV或CNV后,互作基因表达量若出现显著的上调或下调(图1),即提示该CRE的突变可能会驱动癌症产生。
图1. 鉴定结直肠癌中顺式调控元件突变
ETV1基因作为一个已经证实的转录因子,其表达水平变化在多种癌症中被发现。正常细胞ETV1基因表达量很低,而结直肠癌细胞中相关CRE发生突变后,ETV1表达量显著增加(图2b),与ETV1互作的CRE区域里有6个突变位点,其中4个在进化保守区域(图2a),这4个位点发生突变后,H29细胞系都有三倍的活性增强(图2c)。虽然ETV1基因与DGKB基因内部有互作关系,但是对DGKB基因中CRE区域进行突变后并未发现DGKB基因表达量有明显变化。
图2. CRE突变影响ETV1基因表达
文章从615个肠癌样本数据库中分析识别受体细胞拷贝数变异影响的CRE,发现在HT29和LoVo两种肠癌细胞系中,H3K4me1标记显示RASL11A启动子具有与潜在增强子相互作用的特征(图3)。
图3. RASL11A启动子互作图
在12种癌细胞样本中,RASL11A基因表达受CRE显著增强(图4b)。对RASL11A基因相关的CRE区域进行CRISPR基因敲除(图4c),可以明显下调RASL11A表达(图4d), 未影响CRE附近USP12等基因的表达(图4e)。尽管RASL11A在肿瘤发生中的作用尚未确定,但据报道它编码染色质相关的前体rRNA合成GTP酶调控因子,可促进RNA聚合酶I的转录起始。
图4. CRE调节RASL11A基因表达
在HT29细胞中,利用RNA干扰降低ETV1与RASL11A基因表达,可降低细胞活力和细胞增殖的速度(图5),证明ETV1与RASL11A的异常表达与结直肠癌的发生密切相关。
图5. ETV1与RASL11A表达水平与细胞增殖相关
参考文献:
Giulia Orlando, et al. Promoter capture Hi-C-based identification of recurrent noncoding mutations in colorectal cancer. Nature Genetics, 2018.