条石鲷(Oplegnathus fasciatus)是石雕科家族的一员,是商业上一个重要的岩石礁鱼,原产于东亚。条石鲷已经成为中国、日本和韩国海洋牧场近海网箱养殖和鱼类养殖的重要渔业资源。近年来,性双态性染色体在生长发育中广泛应用,条石鲷中的生物疾病也越来越受到人们的关注。然而,缺乏足够的基因组资源来深入了解条石鲷的性别决定机制和建立抗病转基因育种系统。
自2018年9月永利集团3044助力黄颡鱼和中国鱚鱼基因组发布以来,永利集团3044水生动物基因组再创佳作!中国科学院海洋研究所联合永利集团3044研究团队基于PacBio测序平台和Hi-C技术获得了条石雕高质量的参考基因组。该基因组的获得有助于研究鱼类性别决定机制,丰富了抗性育种系统中的基因组辅助资源。该成果于2019年2月以“Genome sequence of the barred knifejaw Oplegnathus fasciatus (Temminck & Schlegel, 1844): the first chromosome-level draft genome in the family Oplegnathidae”为题发表在《GigaScience》。
研究方法
样本:
背部肌肉组织(DNA,基因组) 血液(Hi-C)
测序平台及策略:
Illumina(300~350 bp小片段文库) PacBio Sequel(20 kb文库) Hi-C(Illumina,小片段文库)
研究结果
Survey分析:
利用Illumina数据(80.8 Gb clean data)和组装软件Platanus预估该条石鲷基因组大小约为744.5 Mb,杂合度为0.29%,重复序列含量为38.46%,GC含量为41%。其中contig N50=7.2 kb,scaffold N50=84.1kb。
条石鲷基因组k-mer分布图
基于PacBio长读长数据的基因组草图组装:
利用PacBio Sequel 平台获得了62.9 Gb raw data,借助Canu v1.4 软件组装得到条石鲷基因组大小为875.9 Mb,高于Illumina数据估算的基因组大小。这个原因可能与基因组复杂性,如结构变异和杂合性等因素有关。 因此,我们使用Redundans v0.13c去除冗余序列,SMRT Link 5.0 软件中的Arrow工具进行PacBio数据的自我矫正,又借助Illumina数据进一步校正,获得条石鲷基因组大小为778.7 Mb,contig N50 = 2.1 Mb。通过与以前Illumina数据获得的基因组相比发现,长读长对于基因组的组装有更大的优势。
条石鲷基因组的组装统计
基于Hi-C技术的染色体挂载:
基于染色体内的互作强度大于染色体间的互作,同一染色体内,距离越近,互作越强的两大原理,利用Hi-C数据,通过聚类、排序、定向三大步骤,最终将所有的congtig挂载到24条染色体上。最终的基因组大小为768.8 Mb,contig N50= 2.1 Mb,scaffold N50=33.5 Mb,contig长度大于100 kb的序列挂载率达到99.7%。
条石鲷全基因组(包含24条染色体)Hi-C互作热图
基因组质量评估:
通过BUSCO评估发现,在4584个预测的辐鳍鱼纲基因中,组装出了96.6%的完整单拷贝基因,说明组装结果较完整。为了评估组装的准确性,将小片段文库数据采用BWA软件比对到组装的基因组上,使用GATK进行SNP Calling,统计发现杂合和纯合的SNPs占比分别为99.8%和0.2%,表明该组装具有较高的单碱基正确率。
重复序列注释:
为了识别串联重复序列,本研究使用Tandem Repeat Finder对重复序列进行注释,鉴定重复序列占条石鲷基因组的33.9% ,约23.4%是TEs类型。其中DNA转座因子占比11.5%,LINEs占比7.3%,LTRs占比4.0%。
条石鲷基因组的重复序列分类
基因注释:
本研究使用Cufflinks预测基因结构,然后使用MAKER进行基因模型的整合,最终获得了24,003个蛋白编码基因,每个基因平均含有10.1个外显子。平均转录本长度为16.1 kb、外显子平均长度为217.7 bp,内含子平均长度为1527.4 bp。通过与NT、NR、GO、KEGG等数据库比对,发现97.3%的基因至少在一个数据库中被注释到。通过tRNAscan-SE和Rfam数据库,对microRNAs、tRNAs、 rRNAs和snRNAs进行非编码RNA注释。
基因家族鉴定和进化树分析:
根据编码蛋白基因的系统发育树分析,发现条石鲷与大黄鱼(Larimichthys crocea)有密切的亲缘关系,且条石鲷大约在7050万至8850万年前与它们的共同祖先发生分歧。
条石鲷与其他鱼类的系统发育关系