基于非完全信息的入侵检测系统最优稳态策略求解方法与流程

    专利2022-07-08  132


    本发明属于网络安全技术领域,具体涉及一种基于非完全信息博弈的入侵检测系统最优稳态策略的求解方法。



    背景技术:

    目前网络系统已经遍布社会生产生活的各个领域,但是由于网络系统其本身开放的性质,各种恶意个人和团体出于金钱或其他目的,寻找网络系统中的漏洞,非法攻击各种网络系统,使得网络系统的安全面临严峻威胁和挑战。因此,网络系统的安全性已成为一个非常重要的研究方向。

    网络系统的安全问题大多是在恶意攻击者和网络的防守者之间展开,博弈论为我们提供了一个很好的思想去研究这类安全问题,现如今已经有大量的研究将博弈论应用于网络攻防分析,但是大部分的研究仍然是在攻防双方完全知道各自信息的前提下展开,对于双方不完全掌握各自信息情况的研究仍然是这方面研究的难点和重点。然而在实际情况中,这种信息不完全的情况是比较常见的。



    技术实现要素:

    为了克服已有技术的不足,本发明提供了一种基于非完全信息的入侵检测系统最优稳态策略求解方法,攻击者缺失网络系统状态信息的情况下,分析攻击者和入侵检测系统的行为,找到攻击者和入侵检测系统的最优稳态策略。

    本发明解决其技术问题所采用的技术方案是:

    一种基于非完全信息的入侵检测系统最优稳态策略求解方法,包括以下步骤:

    1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;

    2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略;

    3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。

    进一步,所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为αa=i代表攻击者使用中相应的某一攻击类型i,其相应给定的攻击代价为ca(i)>0,入侵检测系统的有限检测库集合为其中,每个库li会以一定的概率检测到攻击类型αa,加载一个库li也有其相应给定的代价入侵检测系统通过加载不同的库来检测不同的攻击类型,定义fi,i∈{1,2,...,2n}表示入侵检测系统对于库的不同配置。入侵检测系统的纯动作集合为纯动作表示选择具体的某一配置,因此执行纯动作αd的代价为若入侵检测系统执行纯动作αd,则识别到攻击类型αa的概率为定义集合表示网络系统3种状态的集合,其中s1,s2,s3分别代表网络系统的健康,受损,故障3种状态。在状态sk下,若攻击类型αa未被入侵检测系统检测到,则会对网络系统造成的损害表示为d(sk,αa),定义在状态sk下,入侵检测系统选择纯动作αd,攻击者选择攻击类型αa,攻击者的收益,也即入侵检测系统的损失为

    网络系统的不同状态之间会以一定的概率进行相互转移,定义网络系统的状态转移矩阵为

    其中,表示在纯动作{αd,αa}下,网络系统从状态si转移到状态sj的转移概率;

    给出攻击者的最优稳态策略,基于信念的连续零和随机博弈模型使用五元组描述,模型设定如下:

    1.1)是博弈的参与者集合,代表加权入侵检测系统,a代表攻击者;

    1.2)是对联合概率分布的集合,δ表示对于一个集合的概率测度空间,×表示笛卡尔积。表示加权入侵检测系统的纯动作集合,分别表示加权入侵检测系统和攻击者的概率动作集合。a={ad,aa}∈a是联合概率动作,为加权入侵检测系统的概率动作,为攻击者的概率动作;

    1.3)是信念状态集合,是对于集合的联合概率分布,t时刻攻击者的信念为bt,通过式(3)更新出在t 1时刻的信念bt 1。分别表示在t时刻,攻击者观测到的纯动作;

    其中由式(2)得到;

    1.4)t是信念状态的转移概率:

    t(b′|b,a)表示当前时刻,信念状态为b∈b,攻守双方的联合概率动作为a∈a的条件下,下一时刻转移到信念状态b′∈b的概率,表示加权入侵检测系统执行纯动作的概率,aa(αa)攻击者执行纯动作αa的概率;

    1.5)是一步回报集合,其中,ri(bt=b,at=a)是参与者i在t时刻状态bt=b下采取联合概率动作at=a的一步回报,给出攻击者和加权入侵检测系统的一步回报分别为

    其中,b(j)表示系统状态j的概率;

    1.6)定义加权入侵检测系统和攻击者的目标函数:

    其中,b0为初始信念,0<ρ<1是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略满足式(8),即为攻击者的最优稳态策略;

    其中,

    1.7)给出攻击者的最优状态值函数为

    给出攻击者的最优状态-动作值函数为

    其中,表示对所有和αa组合的累加,转移概率表示当前时刻信念状态为b,联合概率动作为a,加权入侵检测系统和攻击者的纯动作分别为αa的条件下,下一时刻信念状态转移到b′的概率。

    进一步,所述步骤2)中,入侵检测系统建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略,该决策过程可以用一个四元组描述,包括以下步骤:

    2.1)是联合概率动作集合。表示入侵检测系统的概率动作集合;

    2.2)是混合状态集合;

    2.3)是混合状态的转移概率:

    表示在当前时刻,混合状态为u,u={s,b}∈u,b∈b,攻守双方的联合概率动作为的条件下,下一时刻转移到混合状态u′的概率,u′={s′,b′}∈u,b′∈b。是定义在(2)状态转移矩阵中(s,s′)对应的元素,ad(αd)表示入侵检测系统执行纯动作αd的概率;

    2.4)入侵检测系统的一步回报为:

    2.5)定义入侵检测系统的目标函数:

    其中,u0为初始混合状态,0<ρ<1是折扣因子,ζd(u)是根据当前混合状态u,入侵检测系统的稳态策略,入侵检测系统的目标是最大化自己的目标函数,入侵检测系统的最优稳态策略由(13)得到,记为

    由式子(8)得到(14)

    2.6)给出入侵检测系统的最优状态值函数为

    给出入侵检测系统的最优状态-动作值函数为

    其中α={αd,αa},表示对所有αd和αa组合的累加,为根据式(8)得到的策略做出的最优概率动作,转移概率表示当前时刻信念状态为b,联合概率动作为入侵检测系统和攻击者的纯动作分别为αd,αa的条件下,下一时刻信念状态转移到b′的概率。

    更进一步,所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:

    3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度q学习算法来求解最优状态-动作值函数,过程为:

    3.1.1.初始化容量分别为ca,cd的记忆库ma,md;

    3.1.2.分别随机初始化q网络和qd(b,α;σd)的权重σa,σd;

    3.1.3.分别初始化目标网络的权重,

    3.1.4.设置初始状态为b1∈b,u1={s1,b1};

    3.1.5.对于t=1,2,...执行以下循环:

    3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;

    3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;

    3.1.8.根据ε-greedy政策选择纯动作αd,t;

    3.1.9.观测到系统状态st 1,计算t时刻的记为

    3.1.10.根据(3)算出t 1时刻的信念状态bt 1,设置混合状态ut 1={st 1,bt 1};

    3.1.11.把当前的经历分别存储在记忆库ma,md中;

    3.1.12.随机分别从记忆库ma,md抽取若干条记忆

    3.1.13.令

    3.1.14.对于[zd,l-qd(ul,αl;σd)]2执行梯度下降法训练q网络的权重σa,σd;

    3.1.15.每过d步以后,把q网络的权重赋给目标网络;

    3.1.16.循环结束;

    所述3.1.8中,分别为攻击者在t时刻观测到的纯动作,αd,t为入侵检测系统在t时刻实际执行的纯动作;3.1.12到3.1.14中,下标j,l表示随机抽取到的某一时刻j,l;3.1.13中,表示j 1时刻所有纯动作和α′a组合的累加,表示l 1时刻所有纯动作α′d和α′a组合的累加;3.1.14中,权重σa,σd的更新公式为:

    其中0<γ≤1是步长因子,下标k表示抽取的若干记忆执行梯度下降法时的迭代次数,分别表示qd(u,α;σd,k)的梯度;

    3.2)当训练好神经网络后,使用q网络和qd(b,α;σd)分别估计出最优状态-动作值函数针对不同的信念状态b,使用线性规划即能够得到攻击者的最优稳态策略然后入侵检测系统通过求解最优化问题(13)得到最优稳态策略

    本发明以网络系统为基本模型,考虑在攻击者无法获取网络系统状态信息的情况下,攻击者对网络系统展开攻击。同时入侵检测系统检测网络中存在的攻击并进行拦截,减少攻击者对系统的损害。因此在我们的模型中,入侵检测系统可以称之为网络的防守者。于是,我们的网络攻防将在网络的攻击者和网络的防守者,即入侵检测系统之间展开。由于攻守双方信息的不对称,攻击者通过使用对网络系统状态的信念与虚构的加权入侵检测系统竞争,在连续的零和随机博弈模型内解决相应的策略求解问题。由于入侵检测系统可以完全获知网络系统的状态,因此入侵检测系统通过解决具有连续性和离散性的混合状态的markov决策过程来求解策略。此外,为了应对连续的信念状态空间,提出了一种基于深度强化学习的算法,以找到最优稳态策略。

    具体求解过程如下:对于攻击者,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;对于入侵检测系统,建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略;最后使用一种基于深度强化学习的算法,分别求解出攻击者和入侵检测系统的最优稳态策略。

    本发明的有益效果主要表现在:本发明考虑一种信息不对称的网络安全博弈情况。对于攻击者通过建立基于信念的连续零和随机博弈模型,对于入侵检测系统,建立具有连续性和离散性的混合状态的markov决策过程。为了克服信念状态的连续性带来的求解困难,使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。

    附图说明

    图1是本发明方法求解得到的最优稳态策略在实际执行中的仿真效果图。

    具体实施方式

    下面结合附图对本发明作进一步描述。

    参照图1,一种基于非完全信息的入侵检测系统最优稳态策略求解方法。其具体求解过程如下:对于攻击者,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;对于入侵检测系统,建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略;最后使用一种基于深度强化学习的算法,分别求解出攻击者和入侵检测系统的最优稳态策略。

    一种基于非完全信息的入侵检测系统最优稳态策略求解方法,包括以下步骤:

    1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;

    2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略;

    3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。

    进一步,所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为αa=i代表攻击者使用中相应的某一攻击类型i,其相应给定的攻击代价为ca(1)=1,ca(2)=1.2,入侵检测系统的有限检测库集合为其中,库l1,l2会以一定的概率检测到攻击类型αa。加载一个库li也有其给定的代价入侵检测系统通过加载不同的库来检测不同的攻击类型,定义fi,i∈{1,2,3,4}表示入侵检测系统对于库的不同配置。入侵检测系统的纯动作集合为纯动作表示选择具体的某一配置,因此执行纯动作αd的代价为若入侵检测系统执行纯动作αd,则识别到攻击类型αa的概率为定义集合表示网络系统3种状态的集合,其中s1,s2,s3分别代表网络系统的健康,受损,故障3种状态。在状态sk下,若攻击类型αa未被入侵检测系统检测到,则会对网络系统造成的损害表示为d(sk,αa),设定定义在状态sk下,入侵检测系统选择纯动作αd,攻击者选择攻击类型αa,攻击者的收益,也即入侵检测系统的损失为

    网络系统的不同状态之间会以一定的概率进行相互转移,定义网络系统的状态转移矩阵为

    其中,表示在纯动作{αd,αa}下,网络系统从状态si转移到状态sj的转移概率。假设攻击者选择攻击类型1,入侵检测系统同时加载库l1l2,相应的某一转移概率为其他的转移概率可以通过类似方法求得。

    给出攻击者的最优稳态策略,基于信念的连续零和随机博弈模型使用五元组描述,模型设定如下:

    1.1)是博弈的参与者集合,代表加权入侵检测系统,a代表攻击者;

    1.2)是对联合概率分布的集合,δ表示对于一个集合的概率测度空间,×表示笛卡尔积。表示加权入侵检测系统的纯动作集合,分别表示加权入侵检测系统和攻击者的概率动作集合。是联合概率动作,为加权入侵检测系统的概率动作,为攻击者的概率动作;

    1.3)是信念状态集合,是对于集合的联合概率分布,t时刻攻击者的信念为bt,通过式(3)更新出在t 1时刻的信念bt 1。分别表示在t时刻,攻击者观测到的纯动作;

    其中由式(2)得到;

    1.4)t是信念状态的转移概率:

    t(b′|b,a)表示当前时刻,信念状态为b∈b,攻守双方的联合概率动作为a∈a的条件下,下一时刻转移到信念状态b′∈b的概率,表示加权入侵检测系统执行纯动作的概率,aa(αa)攻击者执行纯动作αa的概率;

    1.5)是一步回报集合,其中,ri(bt=b,at=a)是参与者i在t时刻状态bt=b下采取联合概率动作at=a的一步回报,给出攻击者和加权入侵检测系统的一步回报分别为

    其中,b(j)表示系统状态j的概率;

    1.6)定义加权入侵检测系统和攻击者的目标函数:

    其中,b0为初始信念,ρ=0.9是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略满足式(8),即为攻击者的最优稳态策略;

    其中,j=ja=-jd;

    1.7)给出攻击者的最优状态值函数为

    给出攻击者的最优状态-动作值函数为

    其中,表示对所有和αa组合的累加,转移概率表示当前时刻信念状态为b,联合概率动作为a,加权入侵检测系统和攻击者的纯动作分别为αa的条件下,下一时刻信念状态转移到b′的概率。

    进一步,所述步骤2)中,入侵检测系统建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略,该决策过程可以用一个四元组描述,包括以下步骤:

    2.1)是联合概率动作集合。表示入侵检测系统的概率动作集合;

    2.2)是混合状态集合;

    2.3)是混合状态的转移概率:

    表示在当前时刻,混合状态为u,u={s,b}∈u,b∈b,攻守双方的联合概率动作为的条件下,下一时刻转移到混合状态u′的概率,u′={s′,b′}∈u,b′∈b。是定义在(2)状态转移矩阵中(s,s′)对应的元素,ad(αd)表示入侵检测系统执行纯动作αd的概率;

    2.4)入侵检测系统的一步回报为:

    2.5)定义入侵检测系统的目标函数:

    其中,u0为初始混合状态,ρ=0.9是折扣因子,ζd(u)是根据当前混合状态u,入侵检测系统的稳态策略,入侵检测系统的目标是最大化自己的目标函数,入侵检测系统的最优稳态策略由(13)得到,记为

    由式子(8)得到(14)

    2.6)给出入侵检测系统的最优状态值函数为

    给出入侵检测系统的最优状态-动作值函数为

    其中α={αd,αa},表示对所有αd和αa组合的累加,为根据式(8)得到的策略做出的最优概率动作,转移概率表示当前时刻信念状态为b,联合概率动作为入侵检测系统和攻击者的纯动作分别为αd,αa的条件下,下一时刻信念状态转移到b′的概率。

    更进一步,所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:

    3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度q学习算法来求解最优状态-动作值函数,过程为:

    3.1.1.初始化容量分别为ca=cd=1000的记忆库ma,md;

    3.1.2.分别随机初始化q网络和qd(b,α;σd)的权重σa,σd;

    3.1.3.分别初始化目标网络的权重,

    3.1.4.设置初始状态为b1∈b,u1={s1,b1};

    3.1.5.对于t=1,2,...执行以下循环:

    3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;

    3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;

    3.1.8.根据ε-greedy政策选择纯动作αd,t;

    3.1.9.观测到系统状态st 1,计算t时刻的记为

    3.1.10.根据(3)算出t 1时刻的信念状态bt 1,设置混合状态ut 1={st 1,bt 1};

    3.1.11.把当前的经历分别存储在记忆库ma,md中;

    3.1.12.随机分别从记忆库ma,md抽取100条记忆

    3.1.13.令

    3.1.14.对于[zd,l-qd(ul,αl;σd)]2执行梯度下降法训练q网络的权重σa,σd;

    3.1.15.每过d=200步以后,把q网络的权重赋给目标网络;

    3.1.16.循环结束;

    所述3.1.8中,分别为攻击者在t时刻观测到的纯动作,αd,t为入侵检测系统在t时刻实际执行的纯动作;3.1.12到3.1.14中,下标j,l表示随机抽取到的某一时刻j,l;3.1.13中,表示j 1时刻所有纯动作和α′a组合的累加,表示l 1时刻所有纯动作α′d和α′a组合的累加;3.1.14中,权重σa,σd的更新公式为:

    其中γ=0.0005是步长因子,下标k表示抽取的若干记忆执行梯度下降法时的迭代次数,分别表示qd(u,α;σd,k)的梯度,q网络和目标网络都使用了5层神经网络,每层的神经元个数分别为80,60,50,40,30。激活函数使用的是relu;

    3.2)当训练好神经网络后,使用q网络和qd(b,α;σd)分别估计出最优状态-动作值函数针对不同的信念状态b,使用线性规划即能够得到攻击者的最优稳态策略然后入侵检测系统通过求解最优化问题(13)得到最优稳态策略

    本实施例的基于非完全信息的入侵检测系统最优稳态策略求解方法,使用博弈论的思想并结合深度强化学习算法来得到入侵检测系统最优稳态策略,本发明考虑一种信息不对称的网络安全博弈情况。对于攻击者通过建立基于信念的连续零和随机博弈模型,对于入侵检测系统,建立具有连续性和离散性的混合状态的markov决策过程。为了克服信念状态的连续性带来的求解困难,使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。

    以上结合附图详细说明和陈述了本发明的实施方式,但并不局限于上述方式。在本领域的技术人员所具备的知识范围内,只要以本发明的构思为基础,还可以做出多种变化和改进。


    技术特征:

    1.一种基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述方法包括以下步骤:

    1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;

    2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略;

    3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。

    2.如权利要求1所述的基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为αa=i代表攻击者使用中相应的某一攻击类型i,其相应给定的攻击代价为ca(i)>0,入侵检测系统的有限检测库集合为其中,每个库li会以一定的概率检测到攻击类型αa,加载一个库li也有其相应给定的代价入侵检测系统通过加载不同的库来检测不同的攻击类型,定义fi,i∈{1,2,...,2n}表示入侵检测系统对于库的不同配置;入侵检测系统的纯动作集合为纯动作表示选择具体的某一配置,因此执行纯动作αd的代价为若入侵检测系统执行纯动作αd,则识别到攻击类型αa的概率为定义集合表示网络系统3种状态的集合,其中s1,s2,s3分别代表网络系统的健康,受损,故障3种状态,在状态sk下,若攻击类型αa未被入侵检测系统检测到,则会对网络系统造成的损害表示为d(sk,αa),定义在状态sk下,入侵检测系统选择纯动作αd,攻击者选择攻击类型αa,攻击者的收益,也即入侵检测系统的损失为

    网络系统的不同状态之间会以一定的概率进行相互转移,定义网络系统的状态转移矩阵为

    其中,表示在纯动作{αd,αa}下,网络系统从状态si转移到状态sj的转移概率;

    给出攻击者的最优稳态策略,基于信念的连续零和随机博弈模型使用五元组描述,模型设定如下:

    1.1)是博弈的参与者集合,代表加权入侵检测系统,a代表攻击者;

    1.2)是对联合概率分布的集合,δ表示对于一个集合的概率测度空间,×表示笛卡尔积,表示加权入侵检测系统的纯动作集合,分别表示加权入侵检测系统和攻击者的概率动作集合,是联合概率动作,为加权入侵检测系统的概率动作,为攻击者的概率动作;

    1.3)是信念状态集合,是对于集合的联合概率分布,t时刻攻击者的信念为bt,通过式(3)更新出在t 1时刻的信念bt 1,分别表示在t时刻,攻击者观测到的纯动作;

    其中由式(2)得到;

    1.4)t是信念状态的转移概率:

    t(b′|b,a)表示当前时刻,信念状态为b∈b,攻守双方的联合概率动作为a∈a的条件下,下一时刻转移到信念状态b′∈b的概率,表示加权入侵检测系统执行纯动作的概率,aa(αa)攻击者执行纯动作αa的概率;

    1.5)是一步回报集合,其中,ri(bt=b,at=a)是参与者i在t时刻状态bt=b下采取联合概率动作at=a的一步回报,给出攻击者和加权入侵检测系统的一步回报分别为

    rd(bt=b,at=a)=-ra(bt=b,at=a)(6)

    其中,b(j)表示系统状态j的概率;

    1.6)定义加权入侵检测系统和攻击者的目标函数:

    其中,b0为初始信念,0<ρ<1是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略满足式(8),即为攻击者的最优稳态策略;

    其中,

    1.7)给出攻击者的最优状态值函数为

    给出攻击者的最优状态-动作值函数为

    其中,表示对所有和αa组合的累加,转移概率表示当前时刻信念状态为b,联合概率动作为a,加权入侵检测系统和攻击者的纯动作分别为αa的条件下,下一时刻信念状态转移到b′的概率。

    3.如权利要求2所述的基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述步骤2)中,入侵检测系统建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略,该决策过程可以用一个四元组描述,包括以下步骤:

    2.1)是联合概率动作集合,表示入侵检测系统的概率动作集合;

    2.2)是混合状态集合;

    2.3)是混合状态的转移概率:

    表示在当前时刻,混合状态为u,u={s,b}∈u,b∈b,攻守双方的联合概率动作为的条件下,下一时刻转移到混合状态u′的概率,u′={s′,b′}∈u,b′∈b,是定义在(2)状态转移矩阵中(s,s′)对应的元素,ad(αd)表示入侵检测系统执行纯动作αd的概率;

    2.4)入侵检测系统的一步回报为:

    2.5)定义入侵检测系统的目标函数:

    其中,u0为初始混合状态,0<ρ<1是折扣因子,ζd(u)是根据当前混合状态u,入侵检测系统的稳态策略,入侵检测系统的目标是最大化自己的目标函数,入侵检测系统的最优稳态策略由(13)得到,记为

    2.6)给出入侵检测系统的最优状态值函数为

    给出入侵检测系统的最优状态-动作值函数为

    其中α={αd,αa},表示对所有αd和αa组合的累加,为根据式(8)得到的策略做出的最优概率动作,转移概率表示当前时刻信念状态为b,联合概率动作为入侵检测系统和攻击者的纯动作分别为αd,αa的条件下,下一时刻信念状态转移到b′的概率。

    4.如权利要求2所述的基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:

    3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度q学习算法来求解最优状态-动作值函数,过程为:

    3.1.1.初始化容量分别为ca,cd的记忆库ma,md;

    3.1.2.分别随机初始化q网络和qd(b,α;σd)的权重σa,σd;

    3.1.3.分别初始化目标网络的权重,

    3.1.4.设置初始状态为b1∈b,u1={s1,b1};

    3.1.5.对于t=1,2,...执行以下循环:

    3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;

    3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;

    3.1.8.根据ε-greedy政策选择纯动作αd,t;

    3.1.9.观测到系统状态st 1,计算t时刻的记为

    3.1.10.根据(3)算出t 1时刻的信念状态bt 1,设置混合状态ut 1={st 1,bt 1};

    3.1.11.把当前的经历分别存储在记忆库ma,md中;

    3.1.12.随机分别从记忆库ma,md抽取若干条记忆

    3.1.13.令

    3.1.14.对于[zd,l-qd(ul,αl;σd)]2执行梯度下降法训练q网络的权重σa,σd;

    3.1.15.每过d步以后,把q网络的权重赋给目标网络

    3.1.16.循环结束;

    所述3.1.8中,分别为攻击者在t时刻观测到的纯动作,αd,t为入侵检测系统在t时刻实际执行的纯动作;3.1.12到3.1.14中,下标j,l表示随机抽取到的某一时刻j,l;3.1.13中,表示j 1时刻所有纯动作和α′a组合的累加,表示l 1时刻所有纯动作α′d和αa′组合的累加;3.1.14中,权重σa,σd的更新公式为:

    其中0<γ≤1是步长因子,下标k表示抽取的若干记忆执行梯度下降法时的迭代次数,分别表示qd(u,α;σd,k)的梯度;

    3.2)当训练好神经网络后,使用q网络和qd(b,α;σd)分别估计出最优状态-动作值函数针对不同的信念状态b,使用线性规划即能够得到攻击者的最优稳态策略然后入侵检测系统通过求解最优化问题(13)得到最优稳态策略

    技术总结
    一种基于非完全信息的入侵检测系统最优稳态策略求解方法,包括以下步骤:1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。本发明提供了一种基于非完全信息的入侵检测系统最优稳态策略求解方法,攻击者缺失网络系统状态信息的情况下,分析攻击者和入侵检测系统的行为,找到攻击者和入侵检测系统的最优稳态策略。

    技术研发人员:冯宇;寿宇航;石月楼
    受保护的技术使用者:浙江工业大学
    技术研发日:2020.12.02
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-21000.html

    最新回复(0)