一种基于深度学习框架的家畜染色质开放区域识别方法

    专利2025-11-17  2


    本发明涉及家畜染色质开放区域识别,具体为一种基于深度学习框架的家畜染色质开放区域识别方法。


    背景技术:

    1、染色质开放区域(ocr)指的是基因组中能够被蛋白质因子识别并结合的区域,对于dna复制、细胞核组织和基因转录等过程起着重要作用。大量ocr在基因调控中发挥着关键作用,如与调控蛋白相互作用以影响基因的转录调控。因此,准确识别ocr对于生物学探索各种顺式调控元件(例如启动子和增强子)及其相关的调控活动具有重要意义。具体而言,在家畜(如鸡、牛和羊)中准确识别ocr,可以探索表观遗传学变化,从而更好地理解细胞分化、环境信号传导、疾病发展和畜牧育种。目前,鉴定ocr的生物学方法主要通过酶切方法,如mnase-seq、dnase-seq和atac-seq,或通过超声破碎法,如faire-seq。这些实验方法往往耗时耗力,且会造成许多ocr的遗漏。因此,能够准确识别ocr的计算方法可以极大地补充实验方法。

    2、随着机器学习在生物信息学中的成功应用和大量多组学数据的积累,现在可以利用染色质可及性数据构建准确可靠的开放染色质区域预测工具。在对ocr预测的最新模型进行仔细审查后,我们将这些方法以不同机器学习(ml)方法进行分类。第一组是传统的基于ml的方法。2011年,李等人提出了一种基于序列的预测模型,名为kmer-svm,该方法使用支持向量机,直接将序列的k-mer特征作为输入,以预测基因组中的功能信号区域。2014年,kmer-svm进一步升级为gkm-svm,使用gapped k-mer特征作为输入,从而增强了模型的稳健性并提高了预测性能。另一组是基于深度学习(dl)的方法。2015年,周等人构建了第一个卷积神经网络模型,命名为deepsea,它使用长度为1000bp的dna序列作为输入,并通过使用多个卷积预测不同人类细胞系中的染色质开放等多个信号。随后,quang等人于2016年改进了deepsea,并构建了一个名为danq的模型,该模型使用递归神经网络(rnn)以在某些评估指标(即auc)上取得更好的性能。kelley等人于2016年提出了另一个模型,名为basset。它以长度为600bp的dna序列为模型输入,并通过卷积、最大池化和全连接层预测164个人类细胞系中的ocr。2017年,min等人使用卷积和双向lstm构建了一个dl模型,使用dna序列的k-mer编码和自然语言处理中的词向量技术预训练权重矩阵作为输入,以预测ocr。此外,刘等人提出的深度学习模型结合了序列的独热编码特征和k-mer特征,通过卷积池化操作预测ocr。上述方法均设计用于人类ocr的预测。而与植物ocr有关的预测模型,包括基于dl的charplant和另一个用于预测植物染色质开放区域上序列变异效应的dl模型。

    3、尽管在基于序列的ocr预测方面取得了实质性进展,仍然存在一些亟需解决的局限性。首先,大多数已发表的模型仅通过使用简单的卷积层进行预测,这可能导致一些特征的丢失,为性能改进留下空间。其次,大多数现有的ocr预测模型是在在人类或模式生物上构建的上构建的,因此在非模式物种(如家畜)上通常表现不佳。


    技术实现思路

    1、本发明的目的在于提供一种基于深度学习框架的家畜染色质开放区域识别方法,以解决上述背景技术中提出的问题。

    2、为实现上述目的,本发明提供如下技术方案:一种基于深度学习框架的家畜染色质开放区域识别方法,该方法基于一种用于预测家畜ocr的轻量级深度可分离残差网络模型来实现,所述网络模型为deepocr,所述deepocr采用三层网络架构,所述网络构架包括输入层、隐藏层和输出层,所述输入层用于将经过预处理的dna序列转换为特征向量,所述隐藏层由单卷积层、可分离残差卷积层和全连接层组成,所述隐藏层用于将原始dna序列转化为最具信息含量和表达能力的特征表示,所述输出层用于通过激活函形成最终的分类器,所述方法包括以下步骤:

    3、将需要识别家畜染色质开放区域的数据输入上述网络模型中;

    4、网络模型通过预处理的dna序列被转换为特征向量,并将其提供给下一层网络架构;

    5、网络架构通过单卷积层、可分离残差卷积层和全连接层进行逐层的特征提取和抽象,最终输出概率值,描述序列处于染色质开放区域的概率;

    6、通过输出层产生介于[0,1]之间的概率值,描述dna序列处于染色质开放区域的可能性。

    7、作为优选,所述输入层采用one-hot编码方式,每个核苷酸(a、c、g和t)都被映射为一个四位数的向量,未知核苷酸用n表示,其对应的编码为[0,0,0,0]。

    8、作为优选,所述可分离残差卷积层由两个可分离残差卷积块构成,用于在初步提取的底层特征基础上进一步抽取和计算更为抽象的特征。

    9、作为优选,所述隐藏层还引入了残差块,并同时采用了深度可分离卷积替代残差块中的标准卷积,形成可分离的残差卷积块。

    10、作为优选,所述深度可分离卷积包含两个过程:深度卷积(dw)和点向卷积(pw),所述输入层的每个通道都通过独立的dw卷积进行处理,而pw卷积使用1*1卷积来合并dw的输出。

    11、作为优选,所述可分离残差卷积块中放入激活函数采用relu,并引入了dropout来防止过拟合。

    12、作为优选,所述全连接层用于将前一层计算得到的特征空间映射到样本标记空间,整合特征表示为单一值。

    13、作为优选,所述输出层采用具有units=1的全连接层,并使用sigmoid函数作为激活函数,形成最终的分类器。

    14、与现有技术相比,本发明的有益效果是:通过对残差网络的层结构进行优化,从而减少模型中的参数数量,使模型更加轻量级,便于为每个物种构建准确的模型,在家畜、人类、植物上均表现出良好性能,减少参数数量,有助于提高模型的计算效率,减少内存占用,由于模型的轻量化和通用性,更容易适应不同类型的基因组数据,使得模型对于新的物种或变异的适应能力更强,具有一定的灵活性;采用了深度可分离残差网络模型,提高了模型的可解释性,残差网络结构通常有助于减轻梯度消失问题,使得模型更容易解释学到的特征。



    技术特征:

    1.一种基于深度学习框架的家畜染色质开放区域识别方法,该方法基于一种用于预测家畜ocr的轻量级深度可分离残差网络模型来实现,所述网络模型为deepocr,所述deepocr采用三层网络架构,所述网络构架包括输入层、隐藏层和输出层,所述输入层用于将经过预处理的dna序列转换为特征向量,所述隐藏层由单卷积层、可分离残差卷积层和全连接层组成,所述隐藏层用于将原始dna序列转化为最具信息含量和表达能力的特征表示,所述输出层用于通过激活函形成最终的分类器,其特征在于:所述方法包括以下步骤:

    2.根据权利要求1所述的一种基于深度学习框架的家畜染色质开放区域识别方法,其特征在于:所述输入层采用one-hot编码方式,每个核苷酸都被映射为一个四位数的向量,未知核苷酸用n表示,其对应的编码为[0,0,0,0]。

    3.根据权利要求1所述的一种基于深度学习框架的家畜染色质开放区域识别方法,其特征在于:所述可分离残差卷积层由两个可分离残差卷积块构成,用于在初步提取的底层特征基础上进一步抽取和计算更为抽象的特征。

    4.根据权利要求1所述的一种基于深度学习框架的家畜染色质开放区域识别方法,其特征在于:所述隐藏层还引入了残差块,并同时采用了深度可分离卷积替代残差块中的标准卷积,形成可分离的残差卷积块。

    5.根据权利要求4所述的一种基于深度学习框架的家畜染色质开放区域识别方法,其特征在于:所述深度可分离卷积包含两个过程:深度卷积(dw)和点向卷积(pw),所述输入层的每个通道都通过独立的dw卷积进行处理,而pw卷积使用1*1卷积来合并dw的输出。

    6.根据权利要求4所述的一种基于深度学习框架的家畜染色质开放区域识别方法,其特征在于:所述可分离残差卷积块中放入激活函数采用relu,并引入了dropout来防止过拟合。

    7.根据权利要求1所述的一种基于深度学习框架的家畜染色质开放区域识别方法,其特征在于:所述全连接层用于将前一层计算得到的特征空间映射到样本标记空间,整合特征表示为单一值。

    8.根据权利要求1所述的一种基于深度学习框架的家畜染色质开放区域识别方法,其特征在于:所述输出层采用具有units=1的全连接层,并使用sigmoid函数作为激活函数,形成最终的分类器。


    技术总结
    本发明公开了一种基于深度学习框架的家畜染色质开放区域识别方法,该方法基于一种用于预测家畜OCR的轻量级深度可分离残差网络模型来实现,所述网络模型为DeepOCR,所述DeepOCR采用三层网络架构,所述网络构架包括输入层、隐藏层和输出层,所述输入层用于将经过预处理的DNA序列转换为特征向量,所述隐藏层由单卷积层、可分离残差卷积层和全连接层组成,通过对残差网络的层结构进行优化,从而减少模型中的参数数量,使模型更加轻量级,便于为每个物种构建准确的模型,减少参数数量,有助于提高模型的计算效率,减少内存占用,由于模型的轻量化和通用性,更容易适应不同类型的基因组数据,使得模型对于新的物种或变异的适应能力更强,具有一定的灵活性。

    技术研发人员:赵良伟,刘全中,胡尊豪,李韶华
    受保护的技术使用者:西北农林科技大学
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-92044.html

    最新回复(0)