本发明属于内部威胁检测与深度学习领域,尤其涉及一种基于用户行为分析的内部威胁检测方法。
背景技术:
1、内部威胁是指内部人员违反组织安全策略的行为,其广泛影响着各企业和政府部门。用户行为是一种顺序决策过程。不同的用户通常有不同的决策偏好,即行为模式。内部威胁行为的模式通常不同于良性行为模式,因此,通过挖掘用户行为模式来区分威胁行为和良性行为是可行的。
2、用户行为的时间信息是面向内部威胁检测的行为模式挖掘需要关注的重要信息。在不寻常的时间发生的行为可能预示着内部威胁。例如,用户可能会在深夜登录账户来窃取数据。行为时间信息可以分为两类:相对时间信息和绝对时间信息。行为的相对时间信息是指用户行为的时间顺序关系(如,“<登录>发生在<打开文件>之前”是一种相对时间信息)。行为的绝对时间信息是指行为发生的具体时刻(如,“<登录>行为发生在8:40”是一种绝对时间信息)。
3、深度学习得益于其深层结构而更适合分析具有高复杂性的用户行为。目前用于检测内部威胁的深度学习技术包括深度自编码器、dbn、cnn、rnn、transformer、同构图表示学习、异构图表示学习等。然而,现有的基于深度学习的内部威胁检测方案很少关注与内部威胁行为有很强联系的行为时间信息,这使得这些方案在检测内部威胁方面效果不佳。部分检测方案尝试考虑了行为时间因素,如将用户行为按发生时间分类,或是仅提取行为时序信息等。这些尝试显然是不算成功的:他们仅关注了一种类型的时间信息,并且他们收集时间信息的方法无法自由适应不同的用户。他们收集到的用户行为时间信息无法为内部威胁活动的检测提供应有的支持,其检测方案在准确性上也就无法达到理想的效果。
技术实现思路
1、根据上述技术背景,本发明的目的在于构建一种能够捕获用户行为的绝对时间和相对时间信息,并具有用户自适应能力的内部威胁检测方案,以解决现有方案忽视用户行为时间信息或对用户行为时间信息处理粗糙,不能灵活适应不同用户的个性化行为模式的问题。
2、本发明的技术内容包括:
3、一种基于用户行为分析的内部威胁检测方法,其步骤包括:
4、1)根据用户的各类型的行为日志,生成该用户的复合行为日志;
5、2)根据用户的复合行为日志构建该用户的行为特征序列;
6、3)构建内部威胁检测模型;所述内部威胁检测模型遵从编码器-解码器结构,其中将bilstm和第一fnn模型堆叠起来作为编码器,使用第二fnn模型作为解码器;bilstm的输出作为第一fnn的输入;
7、4)利用用户的行为特征序列训练所述内部威胁检测模型;训练方法为:将用户的行为特征序列输入所述内部威胁检测模型重构输入数据,获得重构结果x′u,g,b,然后根据输入数据与输出结果的均方误差优化所述内部威胁检测模型;
8、5)将待测用户的行为特征序列输入训练后的所述内部威胁检测模型,得到该待测用户的重构行为特征序列,计算该待测用户的重构行为特征序列与该待测用户的行为特征序列的均方误差,如果均方误差超过设定阈值δ则认为该待测用户存在内部威胁活动。
9、进一步的,各类型的行为日志包括用户的登录登出行为日志、可移动设备插拔行为日志、邮件收发行为日志、文件操作行为日志和网页浏览与上传下载行为日志;所述复合行为日志中包含每一行为日志的标签和对应的时间戳。
10、进一步的,根据用户的复合行为日志构建该用户的行为特征序列的方法为:
11、11)将用户各类型的行为日志的时间信息转换为位置信息,得到用户的行为特征序列;
12、12)构建用户自适应机制,为每个用户确定最佳的行为特征序列构建方案,并使用用户的最佳行为特征序列构建方案为该用户构建用户行为特征序列。
13、进一步的,将时间信息转换为位置信息的方法为:首先将连续的24小时划分为粒度为g的t个时间段,第t个时间段的范围为[0:00+b+gt,0:00+b+g(t+1)],其中t为时间段的索引,b为时间段起始点偏置;然后根据行为日志中的各个属性值生成对应行为日志的行为标签;然后根据用户的每一行为日志的时间戳将该用户一天内的行为日志划分到不同的时间段;然后分别对每个时间段的行为标签进行统计,得到用户u第t个时间段的m维统计向量i为行为特征索引,i=0,1,2,…,m-1;m为行为标签的个数;为根据用户u在第t个时间段内第i个行为标签的计数值;将用户u一天内各时间段对应的统计向量按时间顺序串联起来,得到该用户u的行为特征序列
14、进一步的,构建用户自适应机制,为每个用户确定最佳的行为特征序列构建方案的方法为:根据用户u的行为特征序列计算cu,g,b=covariance(xu,g,b);根据获得用户u对应的最佳行为特征序列构建方案covariance(·)为协方差函数。
15、进一步的,生成所述复合行为日志的方法为:保留每个用户行为日志条目中的用户id和时间,并将其余部分简化为行为标签;然后根据用户id聚合来自同一用户的不同类型的行为日志,同时按时间顺序重新排列,得到对应用户的复合行为日志。
16、进一步的,采集待测用户各类型的行为日志,生成该待测用户的复合行为日志;根据该待测用户的复合行为日志生成该待测用户的行为特征序列。
17、本发明首先提出一个考虑时间信息的用户自适应行为特征提取方法,其中包括:
18、获取单用户复合行为日志:1)保留每个用户行为日志条目中的用户id和时间,并将其余部分简化为行为标签。具体的简化方式为:对原始行为日志中的各个属性值进行分类或枚举,然后将它们连接在一起,得到一个标签集,根据标签集将日志条目转换为行为标签。2)根据用户id聚合来自同一用户的不同类型的行为日志,同时按时间顺序重新排列,得到单用户复合行为日志。
19、构造用户行为特征序列:将行为标签的时间信息转换为位置信息,以使得行为特征序列中包含行为时间信息。构建用户自适应机制,为每个用户找到最佳的行为特征序列构建方案,并使用用户的最佳行为特征序列构建方案为该用户构建用户行为特征序列。所构建的用户行为特征序列包含了分时段的用户行为分类计数值,可以为后续的威胁检测提供行为类型信息和行为时间信息。
20、其中,将时间信息转换为位置信息的方法为:首先将连续的24小时划分为粒度为g的t个时间段,每个时间段的范围为[0:00+b+gt,0:00+b+g(t+1)],其中t为时间段的索引,b为时间段起始点偏置。tg=24h=1440m=86400s。其次,通过对行为日志中的各个属性值进行分类或枚举,然后将它们连接在一起,由此得到对应行为日志的行为标签,所得行为标签已经足以区分不同的行为;然后根据行为时间将用户一天内的行为标签划分到不同的时间段。然后,分别对每个时间段的行为标签进行类型统计(被统计的行为类型主要包括登录登出、可移动设备插拔、邮件收发、文件操作、网页浏览及上传下载等),得到用户u第t时间段的m维统计向量i为行为特征索引,i=0,1,2,…,m-1。m为行为标签类型的个数。代表了依照方案<g,b>计算得到的用户u在第t个时间段内第i个行为标签的计数值。将该用户u各时间段对应的统计向量按时间顺序串联起来,得到该用户u的行为特征序列t同时是时间索引和位置索引。通过上述数据处理方法,可以将原始行为日志中的数值时间信息转换为位置信息。
21、对于用户自适应机制:使用s=<g,b>二元组来表示特定的行为特征序列构建方案。对每个用户依据每个行为特征序列构建方案构建的行为特征序列,计算cu,g,b=covariance(xu,g,b);令最优由此可以获得与特定用户u相对应的最佳行为特征序列构建方案covariance(·)代表协方差函数。
22、提出一种基于用户行为分析的内部威胁检测装置,所述装置包括:
23、数据预处理模块:用于获取单用户复合行为日志;该单用户复合行为日志包括行为标签和行为时间戳。
24、自适应行为特征序列构建模块:利用用户自适应机制获取特定用户的最佳行为特征序列构建方案,利用最佳行为特征序列构建方案为用户构建行为特征序列。
25、基于深度学习的内部威胁检测模块:该威胁检测模块由bilstm模型和fnn模型按照编码器-解码器结构堆叠构建而成,其中编码器由bilstm和fnn组成,解码器为fnn。用于判断待测用户行为特征序列中是否包含内部威胁行为。
26、一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一所述方法。
27、一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一所述方法。
28、与现有技术相比,本发明的积极效果为:
29、与现有技术相比,本发明提出了绝对时间信息转换和行为节奏拟合方法,能够拟合用户行为的自然周期,深度挖掘用户日行为节奏,弥补了现有内部威胁检测方案对用户行为时间信息分析不足的问题。通过计算和比较按照不同方案构建的行为特征序列的协方差,可以为每个用户自适应地选择合适的行为特征序列构建方案,提取并进一步强化每个用户特定的用户日行为节奏,解决了现有内部威胁检测方案在分析用户行为模式时缺少灵活性的问题。总体而言,本发明可以学习和分析时间相关和时间无关的用户行为特征,具有较高的检测准确性和场景泛化能力。
1.一种基于用户行为分析的内部威胁检测方法,其步骤包括:
2.根据权利要求1所述的方法,其特征在于,各类型的行为日志包括用户的登录登出行为日志、可移动设备插拔行为日志、邮件收发行为日志、文件操作行为日志和网页浏览与上传下载行为日志;所述复合行为日志中包含每一行为日志的标签和对应的时间戳。
3.根据权利要求2所述的方法,其特征在于,根据用户的复合行为日志构建该用户的行为特征序列的方法为:
4.根据权利要求3所述的方法,其特征在于,将时间信息转换为位置信息的方法为:首先将连续的24小时划分为粒度为g的t个时间段,第t个时间段的范围为[0:00+b+gt,0:00+b+g(t+1)],其中t为时间段的索引,b为时间段起始点偏置;然后根据行为日志中的各个属性值生成对应行为日志的行为标签;然后根据用户的每一行为日志的时间戳将该用户一天内的行为日志划分到不同的时间段;然后分别对每个时间段的行为标签进行统计,得到用户u第t个时间段的m维统计向量i为行为特征索引,i=0,1,2,…,m-1;m为行为标签的个数;为根据用户u在第t个时间段内第i个行为标签的计数值;将用户u一天内各时间段对应的统计向量按时间顺序串联起来,得到该用户u的行为特征序列
5.根据权利要求4所述的方法,其特征在于,构建用户自适应机制,为每个用户确定最佳的行为特征序列构建方案的方法为:根据用户u的行为特征序列计算cu,g,b=covariance(xu,g,b);根据获得用户u对应的最佳行为特征序列构建方案covariance(·)为协方差函数。
6.根据权利要求1所述的方法,其特征在于,生成所述复合行为日志的方法为:保留每个用户行为日志条目中的用户id和时间,并将其余部分简化为行为标签;然后根据用户id聚合来自同一用户的不同类型的行为日志,同时按时间顺序重新排列,得到对应用户的复合行为日志。
7.根据权利要求1所述的方法,其特征在于,采集待测用户各类型的行为日志,生成该待测用户的复合行为日志;根据该待测用户的复合行为日志生成该待测用户的行为特征序列。
8.一种基于用户行为分析的内部威胁检测装置,其特征在于,包括
9.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。