本发明涉及测序技术领域,具体是一种基于ngs测序技术精准组装叶绿体基因组的方法。
背景技术:
随着dna高通量测序技术的发展,植物全基因组测序组装技术迅速发展,但目前被拼接完整的植物全基因组序列还比较少,主要都还是一些重要的经济作物或基因组低复杂度物种,这限制着植物学的系统发育研究进展。植物的叶绿体基因组分子量小、多拷贝、结构简单、序列相当保守、进化速率缓慢的特点可以用来作为一种超级dna条形码解决这种问题,为研究植物分子生态及进化提供重要的资源和信息。然而,由于植物的叶绿体基因组dna难于和核基因组dna分离,这使植物中单独分离纯化叶绿体dna测序变的非常麻烦、困难及耗时长。因此,能从植物全基因组测序数据中组装叶绿体基因组变的非常重要。ngs基因组测序(nextgenerationsequencing),是相对于传统的桑格测序(sangersequencing)而言的新一代通量和效率都更高的dna测序方法。
illumina公司的solexa测序平台,是目前世界上最普遍使用和领先的ngs测序平台,其测序的优势则是其极高的通量和相对较低的成本,特点是产出大量的测序数据,并且准确度较高但测序片段的读长一般较短,仅数十碱基到150碱基。植物的叶绿体基因组序列一般长约为100-160kb,尽管已有众多顶尖科研机构和人员进行大量研究,目前由大量测序小片段准确组装出叶绿体基因组还比较困难。
传统的叶绿体基因组组装方法是依靠设计引物进行长pcr扩增,扩增序列使用sanger测序后,使用组装软件拼接。此方法局限性很大,首先需要有近源参考序列来设计引物,同时需要扩增完整才可以,周期长、难度大。第二种叶绿体组装的方法是从全基因组dna中分离出叶绿体基因组dna,直接进行测序后拼接就可以了,方法简单但是操作起来难度大,原因是目前并没有常规的、普适性的叶绿体分离方法,只在极个别的物种中可行。第三种方法是采用第三代的长读长测序技术进行全基因组测序后拼接,从组装结果中筛出叶绿体基因组,此方法虽具有普适性,但目前三代测序成本较高且测序错误较高,对于单纯为了得到叶绿体基因组而言实在是性价比太低了。我们采用的方法是利用ngs高通量测序技术进行全基因组测序,从中组装得到叶绿体基因组序列,该方法既经济又高效还具有普适性,该方法是将技术难点从实验技术转移到生物信息分析上来。illumina测序序列较短,一般单端只有150个碱基而且有一定的错误率,测的又是包括核基因组的全基因组序列,同时质体还存在细胞间异质性,所以利用ngs的全基因组测序数据精准组装叶绿体基因组难度还是比较大的。我们采用的策略是首先构建叶绿体基因组的数据库,通过比对数据库尽可能的获得叶绿体基因组的测序序列,降低组装的复杂度,通过第一部组装获得叶绿体种子序列,再进行启发式搜索,采用kmer迭代延伸的方法逐渐完善叶绿体基因组最终成环,对环化后的基因组进行滑窗检测确定lsc-ira-ssc-irb的四分体结构。
因此,我们提出一种基于ngs测序技术精准组装叶绿体基因组的方法。
技术实现要素:
本发明的目的在于提供一种基于ngs测序技术精准组装叶绿体基因组的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于ngs测序技术精准组装叶绿体基因组的方法,步骤如下:
s1、利用illumina测序技术对样品进行测序;
s2、下载ncbi数据库中所有叶绿体基因组序列构建本地参考数据库;
s3、将测序数据比对步骤2构建的数据库,筛出叶绿体数据;
s4、使用spades软件对步骤s3得到的数据进行初步组装,得到contigs序列;
s5、将步骤s4得到的contigs序列进行自身比对,将有相似性的contigs去冗余;
s6、对剩余的contigs序列挑选最长的1条进行reads比对迭代延伸,在延伸过程中将检测到有overlap的contigs进行融合,形成新的contig;
s7、重复步骤s6的过程,直到最后剩下一条contig;
s8、将步骤s7得到的contig进行再迭代延长,直到首尾相接形成一个闭环;
s9、步骤s8得到的序列进行1kb窗口大小的滑窗检测,鉴定出反向重复区(ira和irb),从而也就确定了两个单拷贝区域(lsc和ssc),进行lsc-ira-ssc-irb区段的排列,即是完整而又精准的叶绿体基因组。
与现有技术相比,本发明的有益效果是:本发明克服了叶绿体基因组获得周期长、难度大、不经济等问题,解决了在组装技术上不完整、不精确等问题,对叶绿体基因组的研究就有经济、高效、普适性等特点。
附图说明
图1为基于ngs测序技术精准组装叶绿体基因组的方法的原理示意图。
具体实施方式
下面结合具体实施方式对本发明的技术方案作进一步详细地说明,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于ngs测序技术精准组装叶绿体基因组的方法,步骤如下:
s1、利用illumina测序技术对样品进行测序;
s2、下载ncbi数据库中所有叶绿体基因组序列构建本地参考数据库;
s3、将测序数据比对步骤s2构建的数据库,筛出叶绿体数据;
s4、使用spades软件对步骤s3得到的数据进行初步组装,得到contigs序列;
s5、将步骤s4得到的contigs序列进行自身比对,将有相似性的contigs去冗余;
s6、对剩余的contigs序列挑选最长的1条进行reads比对迭代延伸,在延伸过程中将检测到有overlap的contigs进行融合,形成新的contig;
s7、重复步骤s6的过程,直到最后剩下一条contig;
s8、将步骤s7得到的contig进行再迭代延长,直到首尾相接形成一个闭环;
s9、步骤s8得到的序列进行1kb窗口大小的滑窗检测,鉴定出反向重复区(ira和irb),从而也就确定了两个单拷贝区域(lsc和ssc),进行lsc-ira-ssc-irb区段的排列,即是完整而又精准的叶绿体基因组。
本发明的有益效果是:本发明克服了叶绿体基因组获得周期长、难度大、不经济等问题,解决了在组装技术上不完整、不精确等问题,对叶绿体基因组的研究就有经济、高效、普适性等特点。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
1.一种基于ngs测序技术精准组装叶绿体基因组的方法,其特征在于,步骤如下:
s1、对样品进行测序;
s2、下载ncbi数据库中所有叶绿体基因组序列构建本地参考数据库;
s3、将测序数据比对步骤s2构建的数据库,筛出叶绿体数据;
s4、对步骤s3得到的数据进行初步组装,得到contigs序列;
s5、将步骤s4得到的contigs序列进行自身比对,将有相似性的contigs去冗余;
s6、对剩余的contigs序列挑选最长的1条进行reads比对迭代延伸,在延伸过程中将检测到有overlap的contigs进行融合,形成新的contig;
s7、重复步骤s6的过程,直到最后剩下一条contig;
s8、将步骤s7得到的contig进行再迭代延长,直到首尾相接形成一个闭环。
2.根据权利要求1所述的基于ngs测序技术精准组装叶绿体基因组的方法,其特征在于,步骤s1中,利用illumina测序技术对样品进行测序。
3.根据权利要求1所述的基于ngs测序技术精准组装叶绿体基因组的方法,其特征在于,步骤s4中,使用spades软件对步骤3得到的数据进行初步组装。
4.根据权利要求1-3任一所述的基于ngs测序技术精准组装叶绿体基因组的方法,其特征在于,步骤s8得到的序列进行1kb窗口大小的滑窗检测,鉴定出反向重复区(ira和irb),从而也就确定了两个单拷贝区域(lsc和ssc),进行lsc-ira-ssc-irb区段的排列,即是完整而又精准的叶绿体基因组。
技术总结