检测低深度全基因组CNV的方法及系统与流程

    专利2026-01-20  5


    本发明涉及基因检测,具体地,涉及一种检测低深度全基因组cnv的方法及系统。


    背景技术:

    1、由于二代测序技术(ngs)(第二代测序(next-generation sequencing,ngs)又称为高通量测序(high-throughput sequencing),是基于pcr和基因芯片发展而来的dna测序技术,二代测序在dna复制过程中通过捕捉新添加的碱基所携带的特殊标记(一般为荧光分子标记)来确定dna的序列)的不断发展,利用ngs检测cnv(拷贝数变异)具有比芯片方法更好的优越性。通常,高深度的双端全基因组测序对cnv检测具有高敏感度及分辨率。然而,高深度wgs(全基因组测序)的费用却是非常昂贵的,因此低深度wgs检测cnv应运而生,同时低深度wgs对于遗传病能快速发现该样本中是否发生了染色体结构异常。但是相应的cnv检测方法却相对停滞不前,甚至用检测高深度wgs的方法直接套用在低深度wgs的数据上,但是分析结果的时效性及准确性不尽如人意。

    2、现在常规分析低深度cnv-seq的方式多数是基于window by window的方式(window指固定大小的区域,如100bp,对染色体进行同样大小的区别分割,统计固定长度区域的reads覆盖),进行该对应区域reads的获取,统计出该window下reads覆盖情况,进行相应数据标准化处理,进而使用cbs的方式进行cnv区域的合并,通过与多个对照样本中cnv比较后是否有显著性方法来计算异常的cnv区域。cbs全称是circular binarysegmentation,是一种基于染色体芯片数据检测拷贝数变异的方法,当然目前也适用于二代测序数据的拷贝数变异检测的方法。

    3、目前分析低深度cnv的方式基本上基于bin大小进行区域扫描后,在进行小区域到大区域的合并,因此异常cnv的断点不是很明确,需要额外的实验进行辅助。同时需要参考几百个样本数据作为对照,一起进行数据分析处理,在样本数量不足情况下,假阳性结果会变得更多。同时需要考虑不同的参考基因组,要建立不同参考基因组版本的对照数据库,费时而且占用服务器空间。整体上现有方法缺乏快速的构建样本对照库,以及快速分析cnv计算能力。


    技术实现思路

    1、针对现有技术中的缺陷,本发明提供一种检测低深度全基因组cnv的方法及系统。

    2、根据本发明提供的一种检测低深度全基因组cnv的方法及系统,所述方案如下:

    3、第一方面,提供了一种检测低深度全基因组cnv的方法,所述方法包括:

    4、基线对照步骤:以多样本抽样混合形成虚拟对照样本的对照生成方式,从多个样本中按照等比例随机抽取样本数据,进行合成后建基线;

    5、block划分步骤:待测样本以基线对照步骤中生成的虚拟对照样本,同时采用block by block的数据统计方式,采用所见即所得的原则,统计基因组中所测得的数据block即reads数;

    6、block数据聚合步骤:block划分步骤产生block区域,采用似然值相似的block聚合的数据块划分模式,到没有相似block产生为止,进而计算每一个block的ratio值;

    7、异常阈值确定步骤:以block数据聚合步骤中生成ratio值的基础上,样本自身两次测序结果做为对照,利用箱形图法确定ratio值正常范围。

    8、优选地,所述基线对照步骤包括:

    9、从多个样本中按照等比例随机抽取数据,抽取完成之后再将多份抽样数据合并,构成一个虚拟的自然样本,无限接近于一个不带cnv的标准样本。

    10、优选地,所述block划分步骤包括:只统计待测样本或对照样本中一方出现,或同时出现数据的区域,而对无数据的沙漠区则不予以统计。

    11、优选地,所述block数据聚合步骤包括:

    12、设对任一一个block,那么这个block内,待测样本case具有reads数为n,对照样本control具有reads数为m,而case和control整个基因组上分别具有总reads数量为t和c,那么求得似然值:

    13、

    14、按照上述公式,计算相邻两个block的似然值l1,l2是否相似,若相似则将两个block合并成一个大block,合并整个基因组上相邻且相似的数据,最后划分的区域相领互不相似,然后计算每个block的ratio值,方法:

    15、

    16、从而将候选的cnv区域即具有异常的ratio值划分出来。

    17、优选地,所述异常阈值确定步骤包括:采用多组样本,分别进行两次上机测序,获得各自的样本的两次上机数据,然后对每个样本进行上述方案的ratio值计算,将所有block的ratio值用箱形图法划定正常值范围,获得raio上限及下限,在实例样本检测cnv时,不在上限及下限正常值范围的block即为潜在的cnv位点,ratio值大于上限则为cnvgain即dulication,小于下限则为cnv loss即为deletion。

    18、第二方面,提供了一种检测低深度全基因组cnv的系统,所述系统包括:

    19、基线对照模块:以多样本抽样混合形成虚拟对照样本的对照生成方式,从多个样本中按照等比例随机抽取样本数据,进行合成后建基线;

    20、block划分模块:待测样本以基线对照模块中生成的虚拟对照样本,同时采用block by block的数据统计方式,采用所见即所得的原则,统计基因组中所测得的数据block即reads数;

    21、block数据聚合模块:block划分模块产生block区域,采用似然值相似的block聚合的数据块划分模式,到没有相似block产生为止,进而计算每一个block的ratio值;

    22、异常阈值确定模块:以block数据聚合模块中生成ratio值的基础上,样本自身两次测序结果做为对照,利用箱形图法确定ratio值正常范围。

    23、优选地,所述基线对照模块包括:

    24、从多个样本中按照等比例随机抽取数据,抽取完成之后再将多份抽样数据合并,构成一个虚拟的自然样本,无限接近于一个不带cnv的标准样本。

    25、优选地,所述block划分模块包括:只统计待测样本或对照样本中一方出现,或同时出现数据的区域,而对无数据的沙漠区则不予以统计。

    26、优选地,所述block数据聚合模块包括:

    27、设对任一一个block,那么这个block内,待测样本case具有reads数为n,对照样本control具有reads数为m,而case和control整个基因组上分别具有总reads数量为t和c,那么求得似然值:

    28、

    29、按照上述公式,计算相邻两个block的似然值l1,l2是否相似,若相似则将两个block合并成一个大block,合并整个基因组上相邻且相似的数据,最后划分的区域相领互不相似,然后计算每个block的ratio值,方法:

    30、

    31、从而将候选的cnv区域即具有异常的ratio值划分出来。

    32、优选地,所述异常阈值确定模块包括:采用多组样本,分别进行两次上机测序,获得各自的样本的两次上机数据,然后对每个样本进行上述方案的ratio值计算,将所有block的ratio值用箱形图法划定正常值范围,获得raio上限及下限,在实例样本检测cnv时,不在上限及下限正常值范围的block即为潜在的cnv位点,ratio值大于上限则为cnvgain即dulication,小于下限则为cnv loss即为deletion。

    33、与现有技术相比,本发明具有如下的有益效果:

    34、1、本发明对照生成方式产生的对照样本,克服单个真实样本自身带有大量cnv或实验及测序误差带来的分析偏差;block by block的数据统计方式,极大的减少了统计量以及计算资源的消耗;相似block聚合的数据块划分模式,可以准确地把相似的数据区域连接,从而将候选的cnv区域划分出来;而以样本自身2次测序结果做为对照,利用箱形图法确定ratio值正常范围,从而准确找到潜在的cnv。

    35、2、本发明的4个独特的特征,在每个环节上都极好地保证了它的计算速度以及结果的准确性,与其它方法相比更加快速高效及准确。;

    36、本发明的其他有益效果,将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述,本领域技术人员通过这些技术特征和技术方案的介绍,应能理解所述技术特征和技术方案带来的有益技术效果。


    技术特征:

    1.一种检测低深度全基因组cnv的方法,其特征在于,包括:

    2.根据权利要求1所述的检测低深度全基因组cnv的方法,其特征在于,所述基线对照步骤包括:

    3.根据权利要求1所述的检测低深度全基因组cnv的方法,其特征在于,所述block划分步骤包括:只统计待测样本或对照样本中一方出现,或同时出现数据的区域,而对无数据的沙漠区则不予以统计。

    4.根据权利要求1所述的检测低深度全基因组cnv的方法,其特征在于,所述block数据聚合步骤包括:

    5.根据权利要求1所述的检测低深度全基因组cnv的方法,其特征在于,所述异常阈值确定步骤包括:采用多组样本,分别进行两次上机测序,获得各自的样本的两次上机数据,然后对每个样本进行上述方案的ratio值计算,将所有block的ratio值用箱形图法划定正常值范围,获得raio上限及下限,在实例样本检测cnv时,不在上限及下限正常值范围的block即为潜在的cnv位点,ratio值大于上限则为cnv gain即dulication,小于下限则为cnv loss即为deletion。

    6.一种检测低深度全基因组cnv的系统,其特征在于,包括:

    7.根据权利要求6所述的检测低深度全基因组cnv的系统,其特征在于,所述基线对照模块包括:

    8.根据权利要求6所述的检测低深度全基因组cnv的系统,其特征在于,所述block划分模块包括:只统计待测样本或对照样本中一方出现,或同时出现数据的区域,而对无数据的沙漠区则不予以统计。

    9.根据权利要求6所述的检测低深度全基因组cnv的系统,其特征在于,所述block数据聚合模块包括:

    10.根据权利要求6所述的检测低深度全基因组cnv的系统,其特征在于,所述异常阈值确定模块包括:采用多组样本,分别进行两次上机测序,获得各自的样本的两次上机数据,然后对每个样本进行上述方案的ratio值计算,将所有block的ratio值用箱形图法划定正常值范围,获得raio上限及下限,在实例样本检测cnv时,不在上限及下限正常值范围的block即为潜在的cnv位点,ratio值大于上限则为cnv gain即dulication,小于下限则为cnv loss即为deletion。


    技术总结
    本发明提供一种检测低深度全基因组CNV的方法及系统,包括:基线对照步骤:以多样本抽样混合形成虚拟对照样本的对照生成方式,从多个样本中按照等比例随机抽取样本数据,进行合成后建基线;Block划分步骤:待测样本以基线对照步骤中生成的虚拟对照样本,同时采用block by block的数据统计方式,采用所见即所得的原则,统计基因组中所测得的数据block即reads数;Block数据聚合步骤:block划分步骤产生block区域,采用似然值相似的block聚合的数据块划分模式,到没有相似block产生为止,进而计算每一个block的ratio值;异常阈值确定步骤:以block数据聚合步骤中生成ratio值的基础上,样本自身两次测序结果做为对照,利用箱形图法确定ratio值正常范围。本发明与其它方法相比具有更高效、快速、准确。

    技术研发人员:陈珺,顾丽朋
    受保护的技术使用者:上海捷易医学检验实验室有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-94011.html

    最新回复(0)