作为目前仅有的同时兼顾长片段和高准确率的测序方法,Iso-seq在读取全长转录本的同时,借助一些开发的分析流程及软件,能够更进一步给出准确的SNP信息和转录本结构及定量信息等,下面就跟随小编一起来看看它们在Iso-seq技术中的应用。
01 等位基因的特异性Isoform表达
近日,冷泉刚实验室研究团队开发了一个基于玉米Iso-seq数据进行亲本及杂交种全长转录本分析的工具-IsoPhase。使用这个工具,研究者验证了和二代数据匹配的大多数SNP,准确鉴定了特异性等位基因及等位基因的特异性转录本表达,显示玉米亲本和子代之间不同的转录本可变剪接活性。该分析工具提升了等位基因表达研究的能力和准确性。
基因分型是描述遗传变异与表型之间关系的关键。玉米作为一种二倍体粮食作物,不仅具有高度的遗传多样性,而且存在等位基因特异性表达(ASE)。之前的研究使用RNA-seq的短片段,可以在SNP水平上量化等位基因,但很少利用长片段进行Isoform水平的单倍体分型。
研究者选用温带系B73和热带系Ki11这两个玉米亲本系及其杂交系(B73 Ki11;Ki11 B73)进行PacBio SMRT测序和RNA-seq。通过IsoPhase的SNP calling和全长序列单倍体重建模型对子代杂交系进行isoform分型从而获得等位基因信息(图1),最后从6,907个基因中鉴定到分别来自B73或Ki11的等位基因。IsoPhase鉴定的SNP信息和RNA-seq结果的96%完全匹配,显示Iso-seq鉴定SNP的高精确度(40 x FL reads 覆盖深度)。
图1 IsoPhase流程
IsoPhase可以鉴定母源基因的特异性表达,基因PB.16588 (Zm00001d037529)在亲本B73和Ki11中均有表达,而在F1代中,仅母源基因表达(图2)。例如,Ki11♀xB73♂得到的F1的母源基因来自于母本Ki11;B73♀xKi11♂得到的F1的母源基因来自于母本B73。基因PB.16588的表达情况和RNA-seq吻合。
图2 IsoPhase鉴定母源基因的特异性表达
接下来,IsoPhase利用calling得到的SNP信息通过Isoform phasing对等位基因的isoform进行表征。基因PB.8517 (Zm00001d040612)展现出特异性isoform表达的模式。PB.8517表达丰度最高的两种isoform分别是PB.8517.1和PB.8517.4,PB.8517.4在B73中表达,PB.8517.1在Ki11表达。两种杂交类型得到的F1代中,PB.8517.1和 PB.8517.4均表达(图3),每一种isoform都与亲本等位基因相关。
图3 IsoPhase鉴别等位基因的特异性isoform表达
短片段数据可以达到更高的测序深度,calling得到更多的snp,而长片段数据以Isoform phasing的方式提供准确的具有较高特异性的单倍型信息,用于研究等位基因的特异性表达,为基因分型研究提供测序方案。
来自加州理工大学的科学家最近研发了一套分析流程TALON,对PacBio和ONT两种平台的三种不同的人ENCODE Tier 1细胞系(GM12878、K562和HepG2)的全长转录本进行鉴定及丰度计算,同时对PacBio Iso-seq和Oxford Nanopore(ONT)的直接RNA转录组测序结果进行比较。
图1 TALON分析流程
PacBio Iso-seq的已知转录本(Known)检出量约20000,非全长转录本(ISM)检出量约5000。且无论是在基因表达水平还是可变剪切水平,PacBio Iso-seq的重复性都很可观,皮尔森系可以达到0.96和0.86。PacBio Iso-seq 90%的转录本表达水平与Illumina RNA-seq没有显著差异。
图2 TALON分析ENCODE Tier 1细胞系PacBio转录本的性能表现
另外一种长读长测序技术——ONT的直接RNA测序,已知转录本(Known)检出量只有8000左右,非全长转录本(ISM)检出量达6000。ONT的直接RNA测序重复性一般,基因表达水平及可变剪切水平皮尔森系数只有0.68和0.38。ONT新转录本(NIC and NNC)检出不如PacBio Iso-seq(图3)。
图3 ONT直接RNA-seq转录组与PacBio Iso-seq的比较
使用TALON对PacBio Iso-seq进行全长转录本分析,能够准确地表征和量化样本中实际功能形式的mRNA。
参考文献:
1.Bo W, Elizabeth T, et al. Variant Phasing and Haplotypic Expression from Single-molecule Long-read Sequencing in Maize [J]. bioRxiv,2019.
2.Dana W, Gabriela B G, et al. A technology-agnostic long-read analysis pipeline for transcriptome discovery and quantification [J]. bioRxiv,2019.