本发明属于网络安全技术领域,具体涉及一种基于非完全信息博弈的入侵检测系统最优稳态策略的求解方法。
背景技术:
目前网络系统已经遍布社会生产生活的各个领域,但是由于网络系统其本身开放的性质,各种恶意个人和团体出于金钱或其他目的,寻找网络系统中的漏洞,非法攻击各种网络系统,使得网络系统的安全面临严峻威胁和挑战。因此,网络系统的安全性已成为一个非常重要的研究方向。
网络系统的安全问题大多是在恶意攻击者和网络的防守者之间展开,博弈论为我们提供了一个很好的思想去研究这类安全问题,现如今已经有大量的研究将博弈论应用于网络攻防分析,但是大部分的研究仍然是在攻防双方完全知道各自信息的前提下展开,对于双方不完全掌握各自信息情况的研究仍然是这方面研究的难点和重点。然而在实际情况中,这种信息不完全的情况是比较常见的。
技术实现要素:
为了克服已有技术的不足,本发明提供了一种基于非完全信息的入侵检测系统最优稳态策略求解方法,攻击者缺失网络系统状态信息的情况下,分析攻击者和入侵检测系统的行为,找到攻击者和入侵检测系统的最优稳态策略。
本发明解决其技术问题所采用的技术方案是:
一种基于非完全信息的入侵检测系统最优稳态策略求解方法,包括以下步骤:
1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;
2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略;
3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。
进一步,所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为
网络系统的不同状态之间会以一定的概率进行相互转移,定义网络系统的状态转移矩阵为
其中,
给出攻击者的最优稳态策略,基于信念的连续零和随机博弈模型使用五元组
1.1)
1.2)
1.3)
其中
1.4)t是信念状态的转移概率:
t(b′|b,a)表示当前时刻,信念状态为b∈b,攻守双方的联合概率动作为a∈a的条件下,下一时刻转移到信念状态b′∈b的概率,
1.5)
其中,
1.6)定义加权入侵检测系统和攻击者的目标函数:
其中,b0为初始信念,0<ρ<1是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略
其中,
1.7)给出攻击者的最优状态值函数为
给出攻击者的最优状态-动作值函数为
其中,
进一步,所述步骤2)中,入侵检测系统建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略,该决策过程可以用一个四元组
2.1)
2.2)
2.3)
2.4)入侵检测系统的一步回报为:
2.5)定义入侵检测系统的目标函数:
其中,u0为初始混合状态,0<ρ<1是折扣因子,ζd(u)是根据当前混合状态u,入侵检测系统的稳态策略,入侵检测系统的目标是最大化自己的目标函数,入侵检测系统的最优稳态策略由(13)得到,记为
2.6)给出入侵检测系统的最优状态值函数为
给出入侵检测系统的最优状态-动作值函数为
其中α={αd,αa},
更进一步,所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:
3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度q学习算法来求解最优状态-动作值函数,过程为:
3.1.1.初始化容量分别为ca,cd的记忆库ma,md;
3.1.2.分别随机初始化q网络
3.1.3.分别初始化目标网络
3.1.4.设置初始状态为b1∈b,
3.1.5.对于t=1,2,...执行以下循环:
3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;
3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;
3.1.8.根据ε-greedy政策选择纯动作
3.1.9.观测到系统状态st 1,计算t时刻的
3.1.10.根据(3)算出t 1时刻的信念状态bt 1,设置混合状态ut 1={st 1,bt 1};
3.1.11.把当前的经历
3.1.12.随机分别从记忆库ma,md抽取若干条记忆
3.1.13.令
3.1.14.对于
3.1.15.每过d步以后,把q网络的权重赋给目标网络;
3.1.16.循环结束;
所述3.1.8中,
其中0<γ≤1是步长因子,下标k表示抽取的若干记忆执行梯度下降法时的迭代次数,
3.2)当训练好神经网络后,使用q网络
本发明以网络系统为基本模型,考虑在攻击者无法获取网络系统状态信息的情况下,攻击者对网络系统展开攻击。同时入侵检测系统检测网络中存在的攻击并进行拦截,减少攻击者对系统的损害。因此在我们的模型中,入侵检测系统可以称之为网络的防守者。于是,我们的网络攻防将在网络的攻击者和网络的防守者,即入侵检测系统之间展开。由于攻守双方信息的不对称,攻击者通过使用对网络系统状态的信念与虚构的加权入侵检测系统竞争,在连续的零和随机博弈模型内解决相应的策略求解问题。由于入侵检测系统可以完全获知网络系统的状态,因此入侵检测系统通过解决具有连续性和离散性的混合状态的markov决策过程来求解策略。此外,为了应对连续的信念状态空间,提出了一种基于深度强化学习的算法,以找到最优稳态策略。
具体求解过程如下:对于攻击者,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;对于入侵检测系统,建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略;最后使用一种基于深度强化学习的算法,分别求解出攻击者和入侵检测系统的最优稳态策略。
本发明的有益效果主要表现在:本发明考虑一种信息不对称的网络安全博弈情况。对于攻击者通过建立基于信念的连续零和随机博弈模型,对于入侵检测系统,建立具有连续性和离散性的混合状态的markov决策过程。为了克服信念状态的连续性带来的求解困难,使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。
附图说明
图1是本发明方法求解得到的最优稳态策略在实际执行中的仿真效果图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于非完全信息的入侵检测系统最优稳态策略求解方法。其具体求解过程如下:对于攻击者,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;对于入侵检测系统,建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略;最后使用一种基于深度强化学习的算法,分别求解出攻击者和入侵检测系统的最优稳态策略。
一种基于非完全信息的入侵检测系统最优稳态策略求解方法,包括以下步骤:
1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;
2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略;
3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。
进一步,所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为
网络系统的不同状态之间会以一定的概率进行相互转移,定义网络系统的状态转移矩阵为
其中,
给出攻击者的最优稳态策略,基于信念的连续零和随机博弈模型使用五元组
1.1)
1.2)
1.3)
其中
1.4)t是信念状态的转移概率:
t(b′|b,a)表示当前时刻,信念状态为b∈b,攻守双方的联合概率动作为a∈a的条件下,下一时刻转移到信念状态b′∈b的概率,
1.5)
其中,
1.6)定义加权入侵检测系统和攻击者的目标函数:
其中,b0为初始信念,ρ=0.9是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略
其中,j=ja=-jd;
1.7)给出攻击者的最优状态值函数为
给出攻击者的最优状态-动作值函数为
其中,
进一步,所述步骤2)中,入侵检测系统建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略,该决策过程可以用一个四元组
2.1)
2.2)
2.3)
2.4)入侵检测系统的一步回报为:
2.5)定义入侵检测系统的目标函数:
其中,u0为初始混合状态,ρ=0.9是折扣因子,ζd(u)是根据当前混合状态u,入侵检测系统的稳态策略,入侵检测系统的目标是最大化自己的目标函数,入侵检测系统的最优稳态策略由(13)得到,记为
2.6)给出入侵检测系统的最优状态值函数为
给出入侵检测系统的最优状态-动作值函数为
其中α={αd,αa},
更进一步,所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:
3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度q学习算法来求解最优状态-动作值函数,过程为:
3.1.1.初始化容量分别为ca=cd=1000的记忆库ma,md;
3.1.2.分别随机初始化q网络
3.1.3.分别初始化目标网络
3.1.4.设置初始状态为b1∈b,
3.1.5.对于t=1,2,...执行以下循环:
3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;
3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;
3.1.8.根据ε-greedy政策选择纯动作
3.1.9.观测到系统状态st 1,计算t时刻的
3.1.10.根据(3)算出t 1时刻的信念状态bt 1,设置混合状态ut 1={st 1,bt 1};
3.1.11.把当前的经历
3.1.12.随机分别从记忆库ma,md抽取100条记忆
3.1.13.令
3.1.14.对于
3.1.15.每过d=200步以后,把q网络的权重赋给目标网络;
3.1.16.循环结束;
所述3.1.8中,
其中γ=0.0005是步长因子,下标k表示抽取的若干记忆执行梯度下降法时的迭代次数,
3.2)当训练好神经网络后,使用q网络
本实施例的基于非完全信息的入侵检测系统最优稳态策略求解方法,使用博弈论的思想并结合深度强化学习算法来得到入侵检测系统最优稳态策略,本发明考虑一种信息不对称的网络安全博弈情况。对于攻击者通过建立基于信念的连续零和随机博弈模型,对于入侵检测系统,建立具有连续性和离散性的混合状态的markov决策过程。为了克服信念状态的连续性带来的求解困难,使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。
以上结合附图详细说明和陈述了本发明的实施方式,但并不局限于上述方式。在本领域的技术人员所具备的知识范围内,只要以本发明的构思为基础,还可以做出多种变化和改进。
1.一种基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述方法包括以下步骤:
1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;
2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略;
3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。
2.如权利要求1所述的基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为
网络系统的不同状态之间会以一定的概率进行相互转移,定义网络系统的状态转移矩阵为
其中,
给出攻击者的最优稳态策略,基于信念的连续零和随机博弈模型使用五元组
1.1)
1.2)
1.3)
其中
1.4)t是信念状态的转移概率:
t(b′|b,a)表示当前时刻,信念状态为b∈b,攻守双方的联合概率动作为a∈a的条件下,下一时刻转移到信念状态b′∈b的概率,
1.5)
rd(bt=b,at=a)=-ra(bt=b,at=a)(6)
其中,
1.6)定义加权入侵检测系统和攻击者的目标函数:
其中,b0为初始信念,0<ρ<1是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略
其中,
1.7)给出攻击者的最优状态值函数为
给出攻击者的最优状态-动作值函数为
其中,
3.如权利要求2所述的基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述步骤2)中,入侵检测系统建立具有连续性和离散性的混合状态的markov决策过程,给出入侵检测系统的最优稳态策略,该决策过程可以用一个四元组
2.1)
2.2)
2.3)
2.4)入侵检测系统的一步回报为:
2.5)定义入侵检测系统的目标函数:
其中,u0为初始混合状态,0<ρ<1是折扣因子,ζd(u)是根据当前混合状态u,入侵检测系统的稳态策略,入侵检测系统的目标是最大化自己的目标函数,入侵检测系统的最优稳态策略由(13)得到,记为
2.6)给出入侵检测系统的最优状态值函数为
给出入侵检测系统的最优状态-动作值函数为
其中α={αd,αa},
4.如权利要求2所述的基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:
3.1)只要得到入侵检测系统和攻击者的最优状态-动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度q学习算法来求解最优状态-动作值函数,过程为:
3.1.1.初始化容量分别为ca,cd的记忆库ma,md;
3.1.2.分别随机初始化q网络
3.1.3.分别初始化目标网络
3.1.4.设置初始状态为b1∈b,
3.1.5.对于t=1,2,...执行以下循环:
3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;
3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;
3.1.8.根据ε-greedy政策选择纯动作
3.1.9.观测到系统状态st 1,计算t时刻的
3.1.10.根据(3)算出t 1时刻的信念状态bt 1,设置混合状态ut 1={st 1,bt 1};
3.1.11.把当前的经历
3.1.12.随机分别从记忆库ma,md抽取若干条记忆
3.1.13.令
3.1.14.对于
3.1.15.每过d步以后,把q网络的权重赋给目标网络
3.1.16.循环结束;
所述3.1.8中,
其中0<γ≤1是步长因子,下标k表示抽取的若干记忆执行梯度下降法时的迭代次数,
3.2)当训练好神经网络后,使用q网络