全基因组关联研究 (GWAS) 有助于将遗传变异与疾病相关联,目前的证据表明大量相关变异通过对远端基因调控元件(例如增强子)的功能影响来赋予其表型效应,然而确定调节这些增强子的变异并确定它们对特定组织中靶基因的影响仍是个挑战。体重指数 (BMI) 的GWAS分析确定了97个与肥胖相关的独立基因座,绝大多数为非编码变异,并且它们大部分富集在大脑,少部分在脂肪细胞的增强子区。这两种类型细胞可以调节能量摄入和控制能量消耗,被认为是维持BMI的关键因素。
该研究在细胞分化阶段的脂肪细胞和下丘脑神经元中生成基因调控注释。然后使用MPRA测定97个肥胖相关基因座中的变异,并确定有哪些变异影响细胞类型特异性或跨组织增强子调节特性。将这些变异与基因调控信息结合,得到肥胖GWAS关联的基因的优先级。除此以外,还探索16p11.2上的一个复杂基因组区间,其中两个独立基因座相距Mb级大小、具有跨基因座的染色质相互作用,并且这两个基因座内的变异调节多个公共基因。总之,GWAS基因座包含改变组织间增强子活性的变异,可能具有特定时间效应以影响多个基因的表达。这种复杂的模型对理解GWAS具有广泛的意义。
文章信息
研究策略
研究方法:
测序:ATAC-seq,RNA-seq,Promoter Capture Hi-C(PCHi-C)
其他:大规模并行报告分析(MPRA),荧光素酶实验,CRISPR–cas9
研究材料:大脑和脂肪细胞
研究思路
研究结果
1.肥胖相关的下丘脑神经元和脂肪细胞的调控图谱
该研究首先绘制下丘脑神经元和脂肪细胞在不同分化点的调控图谱。成熟的下丘脑神经元由人类诱导多功能干细胞(iPSC)分化,分别在第12天(D12)、第16天(D16)和第27天(D27)取得早期下丘脑神经元前体,早期成熟下丘脑神经元和晚期成熟下丘脑神经原。脂肪细胞则是由人前脂肪细胞(SGBS)分化的四个阶段的细胞:前脂肪细胞(D0)、分化诱导期脂肪细胞(D2)、早期成熟脂肪细胞(D8)和晚期成熟脂肪细胞(D16)。研究者利用RNA-seq、ATAC-seq和PCHi-C绘制下丘脑神经元和脂肪细胞的发育调控图谱,并展示高分辨率的启动子和潜在调控元件之间的相互作用图。例如下图展示的下丘脑分化过程的相关性以及调控。
图1 下丘脑分化过程的相关性以及调控
2.肥胖GWAS位点的关键变异
接下来是肥胖GWAS基因座的关键增强子和有效变异。MPRA分析97个独立的肥胖GWAS基因座中,找到与它们成高度连锁不平衡(LD)的2396个变异。然后利用以双等位基因SNP为中心的89964个DNA片段,在大脑和脂肪细胞系中判定这些变异的增强子活性和等位基因效应。大脑和脂肪中都存在增强子的共有区域有460个,其中94个携带一个控制增强子的变异(EMVar),使得等位基因之间的增强子活性具有显著差异。随后是这些增强子结合的TF网络,发现它们主要参与大脑和脂肪中的关键代谢过程,例如产热和葡萄糖稳态。94个EMVar的GWAS基因座中有2/3包含不止一个EMVar,并且37个EMVar影响两种类型细胞的增强子活性,同时GTEx显示大多数表达数量性状基因座 (eQTL) 不是组织特异性的。而EMVar数量最多的是FTO和ATP2A1的肥胖关联区域,每个区域都和16号染色体强关联,结合染色体遗传力分析,明确了16号染色体上对肥胖的强遗传力可能是由于存在过多的有效变异(functional variant,如 EMVars)。
图2 MPRA识别肥胖GWAS基因座中的增强子和功能变异
3.功能变异的目标基因
下一步是集中在PCHi-C识别含有EMVar的增强子的靶基因,并且对靶基因的优先级进行排序。在此过程中,调控元件中的变异普遍具有多效性,可能会影响不同组织或特定发育阶段的基因表达。再与GTEx的皮下或内脏脂肪的eQTL关联,发现既是eQTL又参与远程启动子-增强子的EMVar在整体具有重要的比例(脂肪16/20,脑14/22)。而且在整个发育阶段,38/61(62%)的脑EMVar和52/70 (74%)的脂肪EMVar参与一类细胞的至少一个基因,可以进一步梳理靶基因。最后结合上述基因组注释,根据契合脂肪/大脑、其他组织的eQTL,以及参与脂肪/大脑的PCHi-C相互作用这三类条件的程度,按照从高到低的支持水平,将肥胖GWAS的脂肪/脑的靶基因分为四类(Ⅰ-Ⅳ),I类基因具有与BMI维持相关的已知功能,例如和MAP2K5基因座中的脑EMVar (rs4776984)有相互作用的MAP2K5。
图3 整合功能基因的基因组注释以优先靶基因
4.肥胖相关基因座内的变异和基因水平的多效性
除了上述肥胖遗传相关的单个靶基因,其他基因座中也是出乎意料的复杂。16号染色体和肥胖的强遗传力是由于16p11.2上在600kb内存在两个独立的GWAS基因座和10个EMVar,这两个基因座分别是SBK1和ATP2A1。在该Mb级区域中,PCHi-C分析显示几个基因可能由一组共享增强子共同调节,并且两个基因座内的EMVar是该研究中数量最多的基因的eQTL,同时还与这些基因有着相互作用。rs2650492是该区域中SBK1的3'UTR内lead SNP,rs2650492-A降低了脂肪和脑细胞系中的增强子活性,rs2650492位于开放染色质,也是ENCODE注释的多种细胞中的DNaseI cluster。rs3888190是最接近ATP2A1基因的lead SNP,在该研究中包含数量最多的7个EMVar。另外。荧光素酶实验显示,一半或以上的脂肪EMVar和脑EMVar具有等位基因效应,rs2650492和rs9972768影响脂肪和脑细胞系的增强子活性。
图4 16p11.2上的一个复杂基因组区间
而关于特定细胞和发育环境下的增强子活性,rs2650492和rs9972768是16号染色体上的ATP2A1和SBK1 GWAS基因座中最支持因果关系的增强子,在早期下丘脑发育过程的四个阶段:iPSC(TP1)、腹侧细胞(TP2)、神经元前体(TP3)和下丘脑前体(TP4),通过CRISPR-cas9并进行RNA-seq以识别受影响的基因,发现这两个增强子的缺失都主要影响了TP2阶段的SBK1。结合携带rs2650492的增强子调节其他基因能力的分析,得知基因座中一个远端基因NUPR1在神经元发育过程中表达非常低,但在HEK293t和脂肪中适度表达,这是由于rs2540492 EMVar是NUPR1的eQTL,但是它与NUPR1形成强烈的远程PCHi-C相互作用,不是在大脑中而是在脂肪细胞分化中。
图5 两个增强子的缺失都主要影响了TP2阶段的SBK1
小 结
GWAS已经确定了许多与疾病相关的变异,但这些关联背后的机制仍不清楚。该研究利用RNA-sq、ATAC-seq和Promoter Capture Hi-C在细胞分化阶段的脂肪细胞和下丘脑神经元中生成基因调控注释,结合97个肥胖相关基因座中的变异,得到肥胖GWAS关联的基因。此外,还对基因组中一个特别复杂的区域进行了表征。总之,GWAS基因座包含改变组织间增强子活性的变异,可能具有特定时间效应以影响多个基因的表达。高通量技术阐明了GWAS位点的复杂性,这种复杂的模型对理解GWAS具有广泛的意义。
参考文献:
Joslin A C, Sobreira D R, Hansen G T, et al. A functional genomics pipeline identifies pleiotropy and cross-tissue effects within obesity-associated GWAS loci[J]. Nature communications, 2021, 12(1): 1-15.