一种基于CNN-BiLSTM的5类新精神活性物质智能化非靶向筛查方法及系统

    专利2025-06-15  31


    本发明属于新精神活性物质的筛查,具体为一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查方法及系统。


    背景技术:

    1、新精神活性物质(nps)自2006年出现起,迅速蔓延,已成为继第一代传统毒品和第二代合成毒品后的第三代毒品。根据联合国毒品和犯罪问题办公室的数据,迄今已发现的1100多种新精神活性物质中,以合成卡西酮类、苯乙胺类、合成大麻素类、色胺类和芬太尼类似物为主,这是近年来在全球市场上发现的主要新精神活性物质类型。

    2、目前,对未知化合物进行定性分析研究主要采用的方法是目标型分析和非目标型筛选,但目标型分析在一次分析中只能实现几十种物质的检测,无法满足需求,其只能在特定应用范围内发挥重要作用,应用场景受限。而非目标型筛选通常依赖于自建或公开的数据库,通过相似性搜索或者图谱比对产生候选化合物的怀疑列表,但其依赖于自建或公开的数据库,无法分析新型的新精神活性物质。


    技术实现思路

    1、发明目的:为解决现有目标型分析和非目标型筛选方法无法对新型的新精神活性物质进行检测的问题,本发明公开了一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查方法及系统,能快速且准确地筛选出新型的新精神活性物质。

    2、技术方案:一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查方法,包括以下步骤:

    3、步骤1:通过核磁共振实验,得到待筛查物质的13c-nmr图谱数据和1h-nmr图谱数据;

    4、步骤2:将13c-nmr图谱数据和1h-nmr图谱数据的横坐标进行特征提取,得到13c-nmr位移数据和1h-nmr位移数据,将13c-nmr位移数据和1h-nmr位移数据进行拼接,得到一维向量;

    5、步骤3:将步骤2得到的一维向量输入至基于cnn-bilstm的多分类模型中,预测得到该待筛查物质的类别。

    6、进一步的,所述基于cnn-bilstm的多分类模型,包括:

    7、卷积神经网络层,用于通过卷积操作从输入的一维向量中提取包含化合物结构信息的局部特征,并通过最大池化层对提取的局部特征进行降维;

    8、dropout层,用于随机将卷积神经网络层的部分输出设置为0;

    9、双向长短时记忆神经网络层,用于对dropout层的输出进行序列建模,捕捉输入的特征中的长距离依赖关系和时序模式;

    10、全连接层,用于对双向长短时记忆神经网络层的输出进行特征学习和整合;

    11、输出层,用于将全连接层的输出转化为表示不同类别的概率分布,输出相应的类别标签。

    12、进一步的,在所述双向长短时记忆神经网络层中,隐藏状态的具体计算包括:

    13、将dropout层的输出分别输入到前向lstm层和后向lstm层,得到第t个时间步其在前向层和后向层的隐藏状态和

    14、

    15、

    16、其中,xt为在第t个时间步的输入,为第t-1个时间步的前向隐藏状态,为第t+1个时间步的后向隐藏状态;

    17、第t-1个时间步的前向隐藏状态和第t+1个时间步的后向隐藏状态在第t个时间步合并,形成最终隐藏状态ht,表示为:

    18、

    19、进一步的,所述基于cnn-bilstm的多分类模型按照以下步骤训练得到:

    20、收集历史研究实验数据和公共数据库中的新精神活性物质及非新精神活性物质的13c-nmr图谱数据和1h-nmr图谱数据,建立得到数据库;

    21、对数据库中的13c-nmr图谱数据和1h-nmr图谱数据进行预处理,并将预处理后的数据库划分成训练集、验证集和测试集;

    22、将训练集和验证集输入到事先构建的基于cnn-bilstm的多分类模型中;

    23、基于cnn-bilstm的多分类模型输出预测的新精神活性物质类别;

    24、利用损失函数计算预测值和真实值之间的损失,所述损失函数为多分类交叉熵损失函数;

    25、使用自适应学习率的adam优化函数来迭代更新基于cnn-bilstm的多分类模型的参数,直至基于cnn-bilstm的多分类模型收敛,保存当前的基于cnn-bilstm的多分类模型作为步骤3中使用的基于cnn-bilstm的多分类模型;

    26、所述使用自适应学习率的adam优化函数来迭代更新基于cnn-bilstm的多分类模型的参数,表示为:

    27、按照下式更新基于cnn-bilstm的多分类模型的参数:

    28、

    29、其中,θt为参数向量,η为学习率,mt为梯度的一阶矩估计,vt为梯度的二阶矩估计,∈为常数。

    30、进一步的,所述对数据库中的13c-nmr图谱数据和1h-nmr图谱数据进行预处理,具体包括:

    31、对13c-nmr图谱数据和1h-nmr图谱数据进行数据清洗,得到清洗后的13c-nmr图谱数据和1h-nmr图谱数据;

    32、通过对清洗后的13c-nmr图谱数据和1h-nmr图谱数据的横坐标化学位移进行等值采样,将13c-nmr数据转换为一维向量,将1h-nmr数据转换为一维向量;

    33、将数据库中同种化合物的1h-nmr的一维向量和13c-nmr的一维向量进行拼接,得到拼接后的一维向量;

    34、在拼接后的一维向量中添加辅料杂质的nmr图谱数据;

    35、对每个化合物的分类标签转换为独热编码,实现类别信息的向量化表示。

    36、进一步的,所述数据清洗包括:相位校正、基线校正、零点校正、峰对齐、积分、特征峰提取、溶剂峰去除、杂质峰去除。

    37、本发明公开了一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查系统,包括:

    38、输入模块,用于通过核磁共振实验,得到待筛查物质的13c-nmr图谱数据和1h-nmr图谱数据,将13c-nmr图谱数据和1h-nmr图谱数据的横坐标进行特征提取,得到13c-nmr位移数据和1h-nmr位移数据,将13c-nmr位移数据和1h-nmr位移数据进行拼接,得到一维向量;

    39、筛查模块,用于将输入模块输出的一维向量输入至基于cnn-bilstm的多分类模型中,预测得到该待筛查物质的类别。

    40、进一步的,所述基于cnn-bilstm的多分类模型,包括:

    41、卷积神经网络层,用于通过卷积操作从输入的一维向量中提取包含化合物结构信息的局部特征,并通过最大池化层对提取的局部特征进行降维;

    42、dropout层,用于随机将卷积神经网络层的部分输出设置为0;

    43、双向长短时记忆神经网络层,用于对dropout层的输出进行序列建模,捕捉输入的特征中的长距离依赖关系和时序模式;

    44、全连接层,用于对双向长短时记忆神经网络层的输出进行特征学习和整合;

    45、输出层,用于将全连接层的输出转化为表示不同类别的概率分布,输出相应的类别标签。

    46、进一步的,所述基于cnn-bilstm的多分类模型按照以下步骤训练得到:

    47、收集历史研究实验数据和公共数据库中的新精神活性物质及非新精神活性物质的13c-nmr图谱数据和1h-nmr图谱数据,建立得到数据库;

    48、对数据库中的13c-nmr图谱数据和1h-nmr图谱数据进行预处理,并将预处理后的数据库划分成训练集、验证集和测试集;

    49、将训练集和验证集输入到事先构建的基于cnn-bilstm的多分类模型中;

    50、基于cnn-bilstm的多分类模型输出预测的新精神活性物质类别;

    51、利用损失函数计算预测值和真实值之间的损失,所述损失函数为多分类交叉熵损失函数;

    52、使用自适应学习率的adam优化函数来迭代更新基于cnn-bilstm的多分类模型的参数,直至基于cnn-bilstm的多分类模型收敛,保存当前的基于cnn-bilstm的多分类模型作为筛查模块中使用的基于cnn-bilstm的多分类模型;

    53、所述使用自适应学习率的adam优化函数来迭代更新基于cnn-bilstm的多分类模型的参数,表示为:

    54、按照下式更新基于cnn-bilstm的多分类模型的参数:

    55、

    56、其中,θt为参数向量,η为学习率,mt为梯度的一阶矩估计,vt为梯度的二阶矩估计,∈为常数。

    57、进一步的,在所述双向长短时记忆神经网络层中,隐藏状态的具体计算包括:

    58、将dropout层的输出分别输入到前向lstm层和后向lstm层,得到第t个时间步其在前向层和后向层的隐藏状态和

    59、

    60、

    61、其中,xt为在第t个时间步的输入,为第t-1个时间步的前向隐藏状态,为第t+1个时间步的后向隐藏状态;

    62、第t-1个时间步的前向隐藏状态和第t+1个时间步的后向隐藏状态在第t个时间步合并,形成最终隐藏状态ht,表示为:

    63、

    64、有益效果:本发明与现有技术相比,本发明基于cnn-bilstm分类模型可以根据新精神活性物质的13c-nmr和1h-nmr数据预测其类别,包括:对收集整理的nmr数据进行数据清洗、特征提取、特征拼接、添加噪声和独热编码等操作;构建结合卷积神经网络和双向长短时记忆神经网络的分类模型,并利用训练集和验证集对模型进行训练;利用测试集评估模型的性能。本发明的创新点在于将深度学习技术应用于新精神活性物质的非靶向筛选,利用cnn和bilstm的协同作用在处理nmr数据的分类任务中能够更好地捕捉到数据中的关键特征,从而提高了对新精神活性物质识别的准确性和泛化能力;本发明将特征提取与序列建模结合,cnn负责从nmr数据中提取特征,而bilstm则对这些特征进行序列建模,使模型能够更全面地理解nmr数据中的信息;综合局部和全局信息,cnn通过卷积操作捕捉局部特征,而bilstm通过序列建模捕捉全局特征,两者的结合有助于更好地理解nmr数据的整体结构。


    技术特征:

    1.一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查方法,其特征在于:包括以下步骤:

    2.根据权利要求1所述的一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查方法,其特征在于:所述基于cnn-bilstm的多分类模型,包括:

    3.根据权利要求2所述的一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查方法,其特征在于:在所述双向长短时记忆神经网络层中,隐藏状态的具体计算包括:

    4.根据权利要求2所述的一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查方法,其特征在于:所述基于cnn-bilstm的多分类模型按照以下步骤训练得到:

    5.根据权利要求4所述的一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查方法,其特征在于:所述对数据库中的13c-nmr图谱数据和1h-nmr图谱数据进行预处理,具体包括:

    6.根据权利要求5所述的一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查方法,其特征在于:所述数据清洗包括:相位校正、基线校正、零点校正、峰对齐、积分、特征峰提取、溶剂峰去除、杂质峰去除。

    7.一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查系统,其特征在于:包括:

    8.根据权利要求7所述的一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查系统,其特征在于:所述基于cnn-bilstm的多分类模型,包括:

    9.根据权利要求8所述的一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查系统,其特征在于:所述基于cnn-bilstm的多分类模型按照以下步骤训练得到:

    10.根据权利要求8所述的一种基于cnn-bilstm的5类新精神活性物质智能化非靶向筛查系统,其特征在于:在所述双向长短时记忆神经网络层中,隐藏状态的具体计算包括:


    技术总结
    本发明公开了一种基于CNN‑BiLSTM的5类新精神活性物质智能化非靶向筛查方法及系统,包括:通过核磁共振实验,得到待筛查物质的<supgt;13</supgt;C‑NMR图谱数据和<supgt;1</supgt;H‑NMR图谱数据;将<supgt;13</supgt;C‑NMR图谱数据和<supgt;1</supgt;H‑NMR图谱数据的横坐标进行特征提取,得到<supgt;13</supgt;C‑NMR位移数据和<supgt;1</supgt;H‑NMR位移数据,将<supgt;13</supgt;C‑NMR位移数据和<supgt;1</supgt;H‑NMR位移数据进行拼接,得到一维向量;将步骤2得到的一维向量输入至基于CNN‑BiLSTM的多分类模型中,预测得到该待筛查物质的类别;本发明将深度学习技术应用于新精神活性物质的非靶向筛选,利用CNN和BiLSTM的协同作用在处理NMR数据的分类任务中能够更好地捕捉到数据中的关键特征,从而提高对新精神活性物质识别的准确性和泛化能力。

    技术研发人员:廖俊,花镇东,郑笑珊,唐泊伊,苏梦翔
    受保护的技术使用者:中国药科大学
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-88237.html

    最新回复(0)