2020年12月7日,北京农林科学院北京蔬菜研究中心在植物学领域国际知名期刊Plant Biotechnology Journal(IF=8.154)上发表了题为“Assembly of the non-heading pak choi genome and comparison with the genomes of heading Chinese cabbage and the oilseed yellow sarson ”的研究论文。该研究通过PacBio+Hi-C技术构建了不结球白菜的高质量参考基因组,并对不结球白菜、结球白菜以及油用型白菜进行了泛基因组分析,揭示了三者间的基因组结构变异(PAV、SV)、叶片与开花相关基因的结构与表达差异,为芸薹属种间形态多样性的研究提供了新见解!永利集团3044承担了PacBio测序和基因组组装、注释工作。
图1 文章发表信息
研究背景
白菜隶属于芸薹属,芸薹属的形态多样性极其丰富,包括不结球型白菜 (Brassica rapa L. subsp. chinensis)、结球型白菜(subsp. pekinensis)、油用型白菜(subsp. trilocularis)等。目前结球型白菜、油用型白菜均构建了高质量的参考基因组,而不结球型白菜尚未构建参考基因组,这限制了我们对白菜形态多样性遗传基础的理解。基于此,通过构建不结球白菜的高质量参考基因组,并对结球、不结球以及油用型等不同材料间进行基因结构变异分析,一方面可为白菜的性状分析提供遗传资源,另一方面也可为白菜的遗传改良提供新方向。
研究思路
材料:B. rapa L. subsp. chinensis Makino(ZYCX)
测序技术:PacBio、Illumina、Hi-C
比对用的参考基因组:结球白菜基因组(CC)、油用型白菜基因组(YS)
研究结果
1.不结球白菜的基因组(PC)组装及质量评估
通过PacBio测序结合Hi-C辅助组装,研究者构建的不结球白菜基因组大小为370 Mb,Contig N50=2.82 Mb,并将92.16%的序列锚定在10条染色体上,BUSCO评估基因组的完整性为98.1%。而通过对比已发表的结球型、油用型白菜基因组组装结果,研究者构建的不结球基因组连续性更好、完整性更高。
通过注释,研究者发现不结球白菜的重复序列占比为48.68%,其中LTR占比29.4%(几乎是结球白菜LTR占比的两倍);注释得到45363个蛋白编码基因,1599个 tRNA,4495 个rRNA,255 个miRNA,1062 个snRNA。此外,研究者还精确鉴定了不结球白菜十条染色体着丝粒的位置。
表1 PC与CC、YS基因组组装与注释结果的比较
2.不结球、结球、油用型白菜间的结构变异分析
结构变异是植物驯化和育种的重要来源,研究者对不结球、结球和油用型白菜的基因组结构差异进行重点分析。
通过比较PC与CC基因组,研究者鉴定到1324570个SNP、244216个InDel,不结球白菜特异性的区域为13.34 Mb,结球白菜特异性的区域为11.68 Mb。不结球白菜最长的特异性PAV是3号染色体上的29899 bp的区域,结球白菜最长的特异性PAV是9号染色体上的17299 bp的区域,且这些变异在基因组呈现不均匀分布。类似的,比较PC与YS基因组,研究者共鉴定到1643415个SNP、303350个InDel,特异性的区域分别为17.2 Mb、15.6 Mb。总的来说,PC基因组有3.14 Mb区域在CC与YS上完全缺失,CC基因组有2.56 Mb区域在PC与YS上完全缺失,YS基因组有5.10 Mb区域在CC与PC上完全缺失。
共线性分析表明不结球、结球、油用型白菜基因组的同源性很高,且大部分基因序列具有保守性;系统进化分析表明三者在2.4-3.5个百万年前产生分化,这与基于叶绿体序列分析的结果相一致。
图2 PC与CC、YS基因组结构变异分析
3.不结球、结球、油用型白菜间的基因结构与功能比较分析
前面研究提到,PC与CC、YS之间存在结构变异,这些结构变异也造成了基因结构的差异,包括起始密码子或终止密码子突变、剪接受体或剪接供体突变、移码突变或过早终止密码子突变以及不完整的CDS序列等。随后,研究者重点比较了不结球与结球白菜间叶发育相关的基因、不结球与油用型白菜间开花时间相关的基因。
(1)不结球与结球白菜间叶发育相关的基因差异
结球白菜与不结球白菜之间的差异是由于叶原基发育过程中上部和下部区域之间的相互作用造成的,可能涉及到YABBY和KAN基因家族。研究者鉴定到5个KAN基因(BrKAN1.1,BrKAN1.2,BrKAN2.2,BrKAN3.1 and BrKAN3.2)在结球与不结球白菜间具有结构差异,具体表现为不结球白菜在序列与转录起始位点上有缺失。随后,研究者对PC与CC从幼苗到抽穗共6个时期(S1-S6)的叶片进行转录组分析,发现BrKAN1.1、BrKAN2.2、BrKAN3.2和BrYABBY1基因在PC与CC间具有显著表达差异。综上,BrKAN和BrYABBY基因在白菜叶发育中起重要调控作用。
图3 PC与CC叶发育相关基因结构与表达情况的比较
(2)不结球与油用型白菜间开花时间相关的基因
花期是不结球白菜与油用型白菜最显著的表型差异,研究者对PC与YS开花时间相关的基因进行分析,发现BrFRI 和BrRGA1基因在YS中缺失,BrMAF4、 BrCSTF77、BrBBX19和BrBOFH基因在PC中缺失。转录组分析表明,BrFLC2、BrPHYA和BrMAF4基因在YS中表达下调,而BrAP1A基因在YS中表达上调。最后,研究者利用RTPCR技术重点研究了BrMAF4基因的表达情况,证实了其在PC与YS开花时间差异中起重要作用。
图4 PC与YS花期相关基因结构与表达情况的比较
总结
本研究构建了染色体水平的不结球白菜基因组,并通过泛基因组分析鉴定了不结球、结球、油用型白菜间的结构变异(SVs、PAV)及其对重要表型的影响,为白菜基因组的多样性研究提供了新见解,并对不结球白菜的遗传育种提供了宝贵资源。
作为本研究三代测序的承担者,永利集团3044在三代测序领域始终保持领先优势,近期PacBio CLR和HiFi下机数据连创新高。其中,CLR平均产出达到150 Gb,最高达到220 Gb;HiFi平均产出达到19 Gb,最高达到30.08 Gb。
表2 菲沙近期HiFi实测数据(部分)
值此之际,为更好服务科研合作伙伴,永利集团3044近期推出“基因组一站式解决方案”及“你签单,我送生信培训班”等系列活动,具体详情如下。
(1)500M以下的基因组,仅需6w,即可完成所有分析(包含survey、三代测序、组装、Hi-C辅助组装、注释、比较基因组分析等)!
(2)签单基因组项目,即赠送生信培训课程(可以是往期的,也可以是明年的)!