近日,中国农科院油料作物所油料质量安全团队、芝麻特油团队与中国农科院深圳基因组所崔鹏团队联合在知名期刊《Journal of Advanced Research》(IF=12.822)上发表了题为“The wild allotetraploid sesame genome provides novel insights intoevolution and lignan biosynthesis”的研究论文,该研究通过构建高质量的野生四倍体、栽培二倍体芝麻基因组,揭示了芝麻异源四倍体基因组的进化特征,阐述了芝麻木酚素的生物合成途径,从而为芝麻进化与次生代谢通路研究提供了新见解。永利集团3044承担了本研究中基因组的测序与分析工作。
图1 文章发表信息
研究背景
芝麻(Sesamum indicum L.)是最古老的油料作物之一,具有极高的食用、药用与经济价值,其通常为二倍体。野生芝麻(Sesamum schinzianum)是栽培芝麻的祖先种,常见的多为四倍体,其多种表型(例如质量、种子大小、适应性、木酚素含量)较栽培二倍体芝麻具有显著优势。构建高质量的参考基因组不仅有助于揭示这些表型优势的遗传基础,还可以揭示野生芝麻的适应性与高木酚素含量的分子机制。
研究思路
材料:栽培二倍体芝麻(2n=2x=26)、野生四倍体芝麻(2n=4x=64)
测序策略:PacBio+MGI+Hi-C
组学思路:基因组+转录组+代谢组+生理生化实验
研究结果
1.野生和栽培芝麻基因组的组装与注释
通过PacBio和Hi-C测序,研究者构建了高质量的野生与栽培芝麻基因组,其基因组大小分别为721Mb和305Mb,contig N50分别为7.6Mb和6.4Mb,并将92.9%的野生芝麻基因组序列锚定到32条染色体上,将93.4%的栽培芝麻基因组序列锚定到13条染色体上。通过多种方式评估,研究者证实了其组装的芝麻基因组具有高准确性和高连续性。通过注释,发现野生芝麻基因组中重复系列含量为34.3%,共包括50320个蛋白编码基因;而栽培芝麻基因组中重复序列含量为36.5%,共包括25265个蛋白编码基因。
图2 野生与栽培芝麻的基因组特征
2.野生四倍体芝麻亚基因组间差异研究
研究者将芝麻的两套亚基因组分别组装出来,其大小间的差异主要由重复序列的含量不同引起的。在两套亚基因组间分别鉴定到173个和209个特有基因,但这些特有基因不归属于任何已知的功能途径中,但在几乎所有的组织中都表达并参与芝麻的种子发育过程。
两套亚基因组间共鉴定到19950个同源基因,其中1565个基因具有更快的进化速度,这些基因主要参与RNA加工途径相关,揭示了芝麻多倍化过程中转录组的可塑性。研究者还鉴定到164个在多倍体化后只剩下一个拷贝的基因,这些基因同样具有较快的进化速度,且主要参与生物调控、基因表达调控、RNA加工和核糖体生物发生等途径。研究者还鉴定了两套亚基因组间的串联重复事件与结构变异,串联重复与结构变异相关的同源基因增强了野生芝麻的种子繁殖能力与环境适应性。
此外,转录组数据分析表明,从整体水平看,野生芝麻的两套亚基因组间不存在明显的亚基因组表达优势,序列相似性越高的基因表达水平越相似;有差异表达的同源基因可能与亚功能化有关,且主要富集在与氧化还原相关的通路中。
图3 野生芝麻亚基因组间的分化
3.野生芝麻与栽培芝麻间的基因组差异研究
研究者通过构建系统发育树,研究了野生芝麻和栽培芝麻之间的分化时间,结果表明栽培芝麻与野生芝麻的分歧时间(590万年前)早于野生芝麻的两个亚基因组间的分化(480万年前)。虽然野生与栽培芝麻基因组具有良好的共线性,但存在大量染色体重排,导致染色体结构和数目不同。
随后,研究者从特有基因、正选择基因、抗性基因等方面对野生与栽培芝麻间的差异进行详细研究。结果表明,栽培芝麻特有基因大多没有功能注释,而野生芝麻特有基因大多具有功能注释;野生芝麻中发生正选择的基因主要富集在生物调控相关的通路中,这可能与其适应赤道环境有关;野生芝麻具有更多的抗性基因,且几个抗性基因家族(例如NLR蛋白、抗旱相关基因)在其基因组中发生了扩张,这说明野生芝麻具有更强的抗性表型或栽培芝麻在驯化过程中发生了基因丢失。
图4 野生与栽培芝麻间的基因组差异研究
4.次生代谢产物生物合成相关基因的鉴定
栽培芝麻含油量高于野生芝麻,但油酸和亚油酸的比例是相似的。与脂肪酸合成相关基因在栽培与野生芝麻两套亚基因组间无显著的序列与表达差异,但与木质素和纤维素合成相关基因在两者间有差异。因此,野生芝麻种子的木质素和纤维素含量高于油,而油含量低于栽培芝麻。
木酚素,包括芝麻素、芝麻林素、芝麻酚等在芝麻中含量及其丰富。本研究中的栽培和野生芝麻都具有较高的木酚素含量,但其具体组分的比例不同,这主要是由于CYP92B14家族的扩增与功能结合位点的数量差异引起的。CYP92B14家族表现出极端的亚基因组表达优势,且其与栽培芝麻中的芝麻素有多个停靠位点,但与野生芝麻中的芝麻素仅有1个停靠位点。这表明,CYP92B14唯一的功能成员SscC22g35272可能与野生芝麻中芝麻林素的高含量有关。
图5 芝麻中木酚素的生物合成
总 结
通过构建高质量的野生四倍体和栽培二倍体芝麻基因组,研究者发现多倍化后的亚功能化驱动了野生芝麻亚基因组间的差异形成;与栽培芝麻基因组相比,野生芝麻基因组中大量参与胁迫反应的基因经历了正向选择,并且是基因家族扩张的结果,这总体上与对环境的适应性进化有关。此外,唯一的功能成员CYP92B14 (SscC22g35272)可能与野生芝麻中芝麻林素的高含量相关。