基于深度学习的可解释恶意域名检测方法及系统与流程

    专利2025-11-27  2


    本发明涉及网络安全,特别是涉及基于深度学习的可解释恶意域名检测方法及系统。


    背景技术:

    1、本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。

    2、随着网络技术的不断发展,计算机网络面临着日益严峻的安全威胁,例如僵尸网络、大规模ddos攻击,垃圾电子邮件、恶意软件传播、网络钓鱼和敏感信息窃取等各种恶意攻击行为。为了防范这些恶意攻击行为危害计算机系统,网络管理员必须及时识别出用于传播恶意攻击行为的dga域名。这对于维护网络安全、保护用户隐私和确保系统正常运行至关重要。

    3、然而,许多恶意攻击采用域名生成算法(domain generation algorithm,dga)来规避检测。dga是一种通过频繁更改域名来隐藏受感染计算机与命令控制服务器之间通信的技术。攻击者通过运行dga算法生成大量的dga域名,然后从中随机选择小部分域名进行注册,并将其绑定到c&c(command and control)服务器上。一旦生成的域名能够连接到c&c服务器,就能使计算机受到感染,攻击者就可以向受感染的计算机发送指令,使其执行各种操作,例如传输敏感信息、发起攻击等。

    4、目前dga恶意域名已经形成了庞大的家族体系,对dga域名的二分类问题(良性域名和dga域名的区分)已经得到了广泛研究。然而,在dga域名的家族多分类问题上,检测效果尚不理想。由于对恶意dga域名家族分类问题更高检测精度的需求,研究者们倾向于使用更复杂、不可解释的黑匣子分类器。这种复杂性使得理解模型内部决策机制变得困难。

    5、为了解决这个问题,需要采用可解释性的方法去分析分类器中各个特征的重要性,深入研究它们对模型决策能力的影响,并确定它们之间的相互关系。通过深入了解特征的贡献,可以更好地理解模型是如何对dga域名家族进行分类的。这种可解释性的分析有助于揭示模型的强项和弱点,为进一步改进和优化提供有价值的见解。

    6、因此,在研究dga域名家族多分类问题的同时,不仅需要关注分类效果的提升,还需注重对模型内部工作机制的解释性分析,以便更全面地理解模型的性能和提高对dga域名的检测准确性。这种综合性的研究有望为网络安全领域提供更具深度和可行性的解决方案。


    技术实现思路

    1、为了解决现有技术的不足,本发明提供了基于深度学习的可解释恶意域名检测方法及系统;通过网络模型优化,降低了误判率,增强了在实际应用中对dga域名家族的可靠识别,提高了模型实用性和可靠性。

    2、一方面,提供了基于深度学习的可解释恶意域名检测方法,包括:

    3、获取待检测的域名;对待检测的域名进行预处理,将预处理后的域名进行划分,划分出若干个子域名;

    4、将每个子域名输入到训练后的恶意域名检测模型中,训练后的恶意域名检测模型对每个子域名映射为实数向量,从每个实数向量中提取每个子域名的特征,输出域名的分类结果;

    5、将每个子域名的特征,输入到可解释算法中,输出可解释说明。

    6、另一方面,提供了基于深度学习的可解释恶意域名检测系统,包括:

    7、预处理模块,其被配置为:获取待检测的域名;对待检测的域名进行预处理,将预处理后的域名进行划分,划分出若干个子域名;

    8、检测模块,其被配置为:将每个子域名输入到训练后的恶意域名检测模型中,训练后的恶意域名检测模型对每个子域名映射为实数向量,从每个实数向量中提取每个子域名的特征,输出域名的分类结果;

    9、解释模块,其被配置为:将每个子域名的特征,输入到可解释算法中,输出可解释说明。

    10、再一方面,还提供了一种电子设备,包括:

    11、存储器,用于非暂时性存储计算机可读指令;以及

    12、处理器,用于运行所述计算机可读指令,

    13、其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。

    14、再一方面,还提供了一种存储介质,非暂时性存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。

    15、再一方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

    16、上述技术方案具有如下优点或有益效果:

    17、1、本发明改进了transformer模型,使得能够更精准的提取域名特征,对dga域名家族分类的效果更佳,有效提高了模型的泛化能力,显著提高了对未见数据的分类准确性,尤其在处理新的dga域名家族时表现卓越。通过网络模型优化,降低了误判率,增强了在实际应用中对dga域名家族的可靠识别,提高了模型实用性和可靠性。

    18、2、本发明不仅仅提出了改进的transformer网络模型,还对其进行了详尽的可解释说明。能够分析域名分类器中各个特征的重要性,研究它们对模型决策能力的影响,并确定它们之间的相互关系。这种可解释性为模型的进一步优化提供了有力的支持,同时也为相关领域的研究提供了深入的理论基础。



    技术特征:

    1.基于深度学习的可解释恶意域名检测方法,其特征是,包括:

    2.如权利要求1所述的基于深度学习的可解释恶意域名检测方法,其特征是,训练后的恶意域名检测模型,具体包括:依次连接的嵌入层、dropout层、位置编码层、改进的transformer编码器和dense层;其中,改进的transformer编码器,包括:依次连接的第一编码器、第二编码器、第三编码器、第四编码器、第五编码器、第六编码器、第七编码器和第八编码器;

    3.如权利要求2所述的基于深度学习的可解释恶意域名检测方法,其特征是,所述位置编码层,使用三角函数进行计算:

    4.如权利要求2所述的基于深度学习的可解释恶意域名检测方法,其特征是,所述多头自注意机制层,用于进行特征提取;多头自注意力机制包括m个注意力头,每个注意力头独立的对z’进行运算以从多个不同的视角提取特征,并在运算后进行拼接融合;

    5.如权利要求2所述的基于深度学习的可解释恶意域名检测方法,其特征是,所述卷积层,使用一维卷积窗口在多头注意力机制的输出张量h上滑动,检测不同位置的特征,发现不同域名中包含的隐式模式;

    6.如权利要求2所述的基于深度学习的可解释恶意域名检测方法,其特征是,所述dense层,用于对提取的特征进行分类,输出分类结果;

    7.如权利要求1所述的基于深度学习的可解释恶意域名检测方法,其特征是,将每个子域名的特征,输入到可解释算法中,输出可解释说明,具体包括:

    8.基于深度学习的可解释恶意域名检测系统,其特征是,包括:

    9.一种电子设备,其特征是,包括:存储器,用于非暂时性存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。

    10.一种存储介质,其特征是,非暂时性存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。


    技术总结
    本发明公开了基于深度学习的可解释恶意域名检测方法及系统,其中方法,包括:获取待检测的域名;对待检测的域名进行预处理,将预处理后的域名进行划分,划分出若干个子域名;将每个子域名输入到训练后的恶意域名检测模型中,训练后的恶意域名检测模型对每个子域名映射为实数向量,从每个实数向量中提取每个子域名的特征,输出域名的分类结果;将每个子域名的特征,输入到可解释算法中,输出可解释说明。通过网络模型优化,降低了误判率,增强了在实际应用中对DGA域名家族的可靠识别,提高了模型实用性和可靠性。

    技术研发人员:杨英,闫莉莉,李雨颖,王伟,侯仰志,于召勇,马文豪,王利超,于永浩
    受保护的技术使用者:山东省计算中心(国家超级计算济南中心)
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-92282.html

    最新回复(0)