一种基于设备画像的异常网络访问行为检测方法和系统与流程

    专利2022-07-07  126


    本公开涉及计算机应用技术领域,尤其涉及一种基于设备画像的异常网络访问行为检测和系统。



    背景技术:

    电力物联网终端分布广泛、接入环境复杂多样,面临仿冒终端接入等异常网络访问行为,不仅干扰正常终端网络访问,同时还可能导致数据窃取、网络攻击等安全问题,且难以进行及时有效的监测识别,容易产生极大的网络安全威胁,需要进行及时的监测发现。通过识别异常网络访问行为检测接入网络中的仿冒终端,是电力物联网终端层安全防护的关键技术。



    技术实现要素:

    本公开的目的之一是提升电力物联网终端层网络访问安全防护能力。

    为实现上述目的,根据本公开实施例的第一方面,提供一种基于设备画像的异常网络访问行为检测方法,包括:获取大量终端设备的网络访问行为日志和属性信息;基于所获取的网络访问行为日志中终端设备的属性信息和行为信息,形成终端设备的画像模型,其中所述画像模型包括终端设备的属性画像和行为画像;基于模式匹配算法和终端设备的画像模型,检测异常网络访问行为。

    可选地,所述获取大量终端设备的网络访问行为日志和属性信息的步骤包括:对已获取的网络访问行为日志或/和属性信息进行数据清洗或/和结构化处理;根据预设画像数据获取规则,从已进行数据清洗或/和结构化处理的网络访问行为日志或/和属性信息中获取终端设备的画像数据;根据所获取的画像数据,提取设备的画像标签,其中所述画像标签包括设备属性标签和行为标签。

    可选地,所述设备的画像标签以特征空间中的向量予以表示。

    可选地,所述从已进行数据清洗或/和结构化处理的网络访问行为日志或/和属性信息中获取终端设备的画像数据的步骤包括:针对已进行数据清洗或/和结构化处理的网络访问行为日志或/和属性信息,提取预设的特征字段对应的特征字段信息;对提取的特征字段信息进行抽样,其中所述抽样中的至少一部分数据用于作为终端设备的画像模型的训练数据集,至少另一部分数据用于作为终端设备的画像模型的测试数据集;所述基于所获取的网络访问行为日志中终端设备的属性信息和行为信息,形成终端设备的画像模型的步骤包括:采用prefixspan算法序列模式挖掘算法对训练数据集进行频繁序列模式挖掘,以形成终端设备的画像模型。

    可选地,所述模式匹配算法包括ac-bm算法。

    可选地,所述基于模式匹配算法和终端设备的画像模型,检测异常网络访问行为的步骤包括:根据终端设备的画像模型,提取终端设备的正常网络访问行为信息;基于模式匹配算法,将终端设备待测的网络访问行为信息和已提取的正常网络访问行为信息进行模式匹配,如果匹配正确,则判断待测的网络访问行为为正常行为,否则,判断为异常行为。

    可选地,所述检测到的异常网络访问行为包括点异常、上下文异常和集合异常。

    根据本公开实施例的第二方面,提供一种基于设备画像的异常网络访问行为检测系统,包括:信息获取单元,用于获取大量终端设备的网络访问行为日志和属性信息;画像模型形成单元,用于基于所获取的网络访问行为日志中终端设备的属性信息和行为信息,形成终端设备的画像模型,其中所述画像模型包括终端设备的属性画像和行为画像;异常检测单元,用于基于模式匹配算法和终端设备的画像模型,检测异常网络访问行为。

    本公开的实施例提供的技术方案可以实现以下有益效果:

    本公开提供的基于设备画像的异常网络访问行为检测方法和系统,通过从网络访问原始数据记录中挖掘出设备的属性信息和行为信息,抽象设备特征轨迹,形成设备画像模型;基于设备画像模型采用模式匹配方法的检测异常网络访问行为,通过终端网络访问行为与画像的匹配来实现仿冒终端接入等异常网络访问行为的及时精确的监测识别,提升终端层网络访问安全防护能力。

    应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

    附图说明

    通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

    图1为本申请一个实施例提供的基于设备画像的异常网络访问行为检测方法的流程示意图;

    图2为本申请一个实施例提供的对图1中的步骤s101进行描述的流程示意图;

    图3为本申请一个实施例提供的对图1中的步骤s103进行描述的流程示意图;

    图4为本申请一个实施例提供的基于设备画像的异常网络访问行为检测系统的示意性框图;

    附图中相同或相似的附图标记代表相同或相似的结构。

    具体实施方式

    下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

    在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包括一个或多个相关联的列出项目的任何或所有可能组合。

    根据本申请的一个方面,提供了一种基于设备画像的异常网络访问行为检测方法,本实施例的方法的执行主体可以为独立的电子实体,请参考图1,图1为本申请一个实施例提供的基于设备画像的异常网络访问行为检测方法的流程示意图。

    如图1所示,所述基于设备画像的异常网络访问行为检测方法可以包括以下步骤:

    步骤s101,获取大量终端设备的网络访问行为日志和属性信息。

    其中,终端设备例如包括但不限于以下中的至少一项:办公终端、生产终端、上网终端、测试终端、atm等。终端设备的网络访问行为日志和属性信息可以从多个已知的数据源或数据收集渠道来提供或获取。

    其中,终端设备的网络访问行为日志例如包括软件安装信息、对移动接入介质的操作行为趋势信息、弱口令趋势信息、存在敏感文件趋势信息、敏感文件与读写行为关联信息、禁用软件趋势信息、账号变化信息、用户组变化信息、重启次数和频率、进程详细信息、报警情况、流量趋势中的至少一项。

    其中,终端设备的属性信息例如包括静态属性和动态属性,所述静态属性包括终端设备的类型、品牌、型号、sn码、mac地址、设备所属人员、设备所属部门、设备所属单位、设备操作系统类型或版本、cpu个数、内存大小、硬盘大小或序列号中的至少一项,所述动态属性包括终端设备的ip地址、ip使用时间段、使用人、使用时间中的至少一项。

    电力物联网的终端设备随着设备本身的增加和设备数据的增加,每天都会产生大量的网络访问行为日志,本实施例通过统计、分类、聚类等分析方法对网络访问现状进行挖掘,建立正常访问模型、计算访问基线、设备画像,通过设备画像来发现异常访问,并可以对异常进行告警显示以及提取异常行为的详细访问信息。

    本实施例中,可以采用例如现有技术中的决策树、贝叶斯网络、聚类分析等各种机器学习算法挖掘大量终端设备的网络访问行为日志和属性信息,即,对网络访问类的日志进行挖掘分析,从网络访问日志中筛选访问目标的日志,主要包括访问时间、访问设备ip、设备mac地址、主机名、用户名、使用人、使用人所属单位、使用人所属部门、使用人电话、相应策略名称、访问内容、访问结果等中的至少一项。

    决策树(decisiontree)是机器学习中一种常见的学习方法,在分类、预测,规则提取方面取得了不错的效果,树形结构包括根节点,分枝和叶节点三个部分,其中根节点也是决策节点,通常代表的是数据集中待分类样本的某个属性,分枝是根节点的不同取值,叶节点是一种可能的分类结果。决策树算法通过将训练集划分为较纯的子集,再以递归的方式建立决策树。决策树算法中使用最广泛的是c4.5算法,能够处理连续性和离散型的属性数据,也能够处理具有缺失值的数据集。随机森林算法是决策树算法的扩展,是一种集成学习算法。其原理是以决策树算法为基础,加入随机属性选择,因其在数据集上的表现较好,能够处理高维数据集,训练速度快,实现简单,在训练过程中能够检测到特征间的影响关系等而受到众多机器学习研究者的重视。

    贝叶斯网络提供了一种用图形模型来捕捉特定领域的先验知识的方法,可以对变量间的依赖关系进行编码;一旦网络结构确定下来,添加新变量比较容易;可以处理不完整的数据,对有属性遗漏的实例可以通过对该属性所有可能取值的概率进行求和或求积分来加以处理;通过将数据和先验知识以概率的方式进行结合,解决模型的过度拟合问题。

    聚类分析法是一种的多元统计方法,也是非监督模式识别的一个重要分支。它把一个杂乱无章的样本集按某种规则划分成若干个有明显特征区别的子类,使特征量相似的样本尽可能归为一类,而特征量不相似的样本尽量划分到不同的类别中。就聚类方法而言,已经有很多成熟的数学方法,例如:统计学中的系统聚类法、逐步聚类法;模糊数学中的模糊c均值聚类法、模糊等价关系聚类法;另外,还有人工智能中的神经网络模式识别聚类法等。无论采用何种聚类方法,必须要对样本和变量之间的相似性进行度量。样本距离常用来度量样本间的相似性,相似系数常用来度量变量之间的相似性。而对于聚类中样本的特征向量,则必须结合所需负荷特性本身的特点来进行提取。对于一个聚类问题,特征向量的选择必须符合以下原则:即特征向量必须能够反映样本的本质特征。

    由于在收集的海量网络访问日志中,存在大量的冗余、无效、不合规、缺失、错误等噪声数据,例如解析到达的访问网址中存在无法访问的网页,这些噪声数据影响模型的建立、验证以及新的访问行为的判别。而在收集到网络访问日志后,需要对网络访问日志进行后续的数据分析,为了提高后续对所获取的大量终端设备的网络访问行为日志和属性信息进行分析计算的效率,请参考图2,图2为本申请一个实施例提供的对图1中的步骤s101进行描述的流程示意图。根据图2,所述获取大量终端设备的网络访问行为日志和属性信息的步骤s101可以包括:

    步骤s201,对已获取的网络访问行为日志或/和属性信息进行数据清洗或/和结构化处理。

    具体地,为了保障分析结果,需要对海量数据进行去重、过滤、不全、关联等,即数据清洗,以保证数据一致性。也即对获取的网络访问行为日志或/和属性信息进行重新审查和校验,以得到与对应终端设备相关的属性信息和行为特征信息。举例而言,若同一设备存在多条设备id信息,可以通过数据清洗将重复的设备id信息删除,仅保留一条设备id信息。进一步,还可以对海量数据进行结构化处理,即根据获取的数据使用诸如特定类型的数据库等进行表示和存储。例如,对已清洗的海量数据以设备id为单位,形成结构化的数据表,以便于对数据库中每个设备的数据进行查新和修改等操作。

    步骤s202,根据预设画像数据获取规则,从已进行数据清洗或/和结构化处理的网络访问行为日志或/和属性信息中获取终端设备的画像数据。

    具体地,所述预设画像数据获取规则例如包括:根据画像数据的内容,将画像数据进行分类,例如分为行为日志类、属性信息类、其他类等,从而将其他类的数据进行过滤,保留日志类和属性信息类的画像数据。

    具体地,上述步骤s202可以包括以下子步骤:

    -针对已进行数据清洗或/和结构化处理的网络访问行为日志或/和属性信息,提取预设的特征字段对应的特征字段信息;

    -对提取的特征字段信息进行抽样,其中所述抽样中的至少一部分数据用于作为终端设备的画像模型的训练数据集,至少另一部分数据用于作为终端设备的画像模型的测试数据集。例如,选用抽样数据的80%用来做正常访问的画像模型训练,其余的20%用来对画像模型进行验证以及调优,建立最终画像模型,判别异常访问。

    步骤s203,根据所获取的画像数据,提取设备的画像标签,其中所述画像标签包括设备属性标签和行为标签。

    具体地,所述画像数据是以不同的数据维度对终端设备进行描述的数据,通过对这些画像数据进行数据分析,给终端设备打上对应的画像标签,即,将设备的具体行为以及兴趣偏好等抽象成多元的标签,通过多个标签来表征每个终端设备实体。例如,基于设备的状态属性可以给设备打上固定设备或移动设备的标签;基于设备的业务属性,可以给设备打上语音终端、视频终端或传感终端的标签;基于设备的应用类型属性,可以给设备打上用电采集终端、配电调度终端或充电管理终端等的标签。

    所述根据所获取的画像数据,提取设备的画像标签的过程例如:根据所获取的终端设备的id,获取该终端设备的操作功能维度的画像数据,根据操作功能维度的画像数据,统计得到该终端设备的操作功能的频率及各功能的占比,基于这些统计数据,形成该终端设备的功能标签。

    其中,设备属性标签主要基于设备的属性信息而得到,也即主要与设备的属性信息相对应;例如,“基本标签”、“功能标签”以及“级别标签”都是标识终端设备的某种属性,把这类标签称为“属性标签”,表示终端设备固有、静态的状态。更具体地,每个终端设备角色的建立都有一些共有的且能唯一标识该终端的属性,例如“终端id”和“ip地址”。每个终端的业务功能是不同的,根据终端业务功能的不同,对应有“办公”“生产”“测试”等功能标签。

    同理,设备的行为标签主要基于设备的行为特征而得到,也即主要与设备的行为特征相对应。对于设备的行为而言,同一设备的操作行为肯定是有时序的,即设备的一系列操作是按照时间排序的,称之为设备行为序列。正常情况下,每个设备都会大量重复相同的操作,因为设备的正常工作一般是完成某一业务,而完成这一业务往往需要按照一定的操作顺序来操作一些页面等。若按数据结构中的图论来表示,设备操作序列可直观表示为一幅有向图。若直接对图进行频繁序列挖掘,会直接进入死循环,无法实现。因此,在进行频繁序列挖掘之前,需要把有向图“解开”成为一棵树的形式,树的每条分支就是一条完整的操作序列,再解析树,生成一个操作序列列表,再对这些序列进行频繁序列挖掘,即可得到设备的频繁序列。

    由上,通过对所获取的网络访问行为日志的分析,包括对设备行为和设备属性信息的分析,根据分析结果为设备的行为或属性打上画像标签,从而得到设备的画像数据。

    根据本申请的一个优选实施例,所述设备的画像标签可以以特征空间中的向量予以表示。具体地,利用抽象的数学模型对终端设备进行描述,终端设备画像可以用标签的集合进行表示,从计算机的角度而言,就终端画像特征化,便于计算机进行计算,其中标签是特征空间的维度变量。标签是终端特征的符号表示,终端画像可以用标签的集合来表示,标签是特征空间中的维度,终端画像是特征空间中的稀疏向量。例如,标签的全集为{a,b,c,d,e,f},终端画像为{c,e,f},则数学意义上的标签全集等价于特征空间{a×b×c×d×e×f},终端画像等价于{0,0,1,0,1,1}的稀疏向量。

    回到对图1的参考,所述基于设备画像的异常网络访问行为检测方法还包括以下步骤:

    步骤s102,基于所获取的网络访问行为日志中终端设备的属性信息和行为信息,形成终端设备的画像模型,其中所述画像模型包括终端设备的属性画像和行为画像。

    其中,所述终端设备的属性画像和行为画像是针对终端设备的属性信息、行为特征等进行描述,具体地,所述属性画像和行为画像都属于设备画像,通过数据分析提取设备的属性信息和行为特征信息,并根据分析结果为设备打上相应的标签(在此可称为画像标签),从而得到设备画像,设备画像视为设备的具体行为以及兴趣偏好语义化等的抽象表示。在计算机计算时,设备的标签集合可以与特征空间相对应。如上文实施例所述,所述设备的画像标签可以以特征空间中的向量予以表示。

    在一个实施例中,可以采用prefixspan算法序列模式挖掘算法针对设备的行为信息进行挖掘,或言之,在获取得到设备的行为序列的情况下,采用prefixspan算法序列模式挖掘算法对设备具有时序的操作行为的序列模式进行挖掘。其中,所述行为的序列模式可以视为设备完成业务需要操作的功能点序列。

    或者,采用prefixspan算法序列模式挖掘算法对上文所述的训练数据集进行频繁序列模式挖掘,得到用于形成终端设备的画像模型的相关信息,以便于根据挖掘出的相关信息,形成终端设备的画像模型。

    所述prefixspan算法是基于序列模式增长的序列模式挖掘算法,挖掘思想是:找出所有频繁项,产生与每个频繁项关联的投影数据库构成的集合,对每个投影数据库单独进行挖掘。算法主要步骤包括:扫描序列数据库,得到所有频繁项n,构成长度为1的频繁序列集合;将频繁序列集合按照不同的前缀分为n个子集;构建对应的投影数据库,且在数据库中递归地挖掘频繁序列的子集。

    步骤s103,基于模式匹配算法和终端设备的画像模型,检测异常网络访问行为。

    其中,所述模式匹配算法包括但不限于ac-bm算法。

    ac_bm算法是ac算法和bm算法结合产生的匹配算法。ac_bm算法首先以多个模式的相同前缀作为根节点构建成一棵模式树,然后逐个比较待检测对象与模式树的字符,比较方向是从模式树的根节点到叶子节点。算法匹配过程中模式树的移动遵循如下两个移动规则:1)坏字符移动规则。若发现字符不匹配,则移动模式树,使树的某一分支中与当前字符匹配的字符移动到和正在比较字符相同的位置。若在当前的深度上,正在比较的字符未在任何模式中出现,则移动模式树中最短模式串的长度。2)好前缀移动规则。当有失配发生时,如果已有匹配成功的部分,则寻找模式树中与之相同的字符串。若存在,则移动模式树对齐相同部分,再从模式树根节点重新开始匹配。模式树移动的最大距离同样不能超过最短模式串的长度。

    其中,所述检测到的异常网络访问行为包括点异常、上下文异常和集合异常。

    具体地,对于点异常而言:如果单独一条数据异常与其它的数据,那么这条数据实例就是一个点异常。对于上下文异常而言:如果一条数据在一个特定的上下文中被认为异常,但放在另一个上下文中并不异常,那么这条数据就是上下文异常,这种异常也称为条件异常。要检测上下文异常,数据中除了行为属性还必须要有上下文属性,异常行为通过特定上下文中的行为属性的值来判定。对于集合异常:如果一个连续的数据集合相对于整个数据集异常,那么这个集合就称为集合异常。集合异常中的单个数据可能并不是点异常,但是这些数据连续放在一起就违背正常行为模式。集合异常出现在连续数据,图像数据以及空间数据中。

    根据本申请的一个实施例,请参考图3,图3为本申请一个实施例提供的对图1中的步骤s103进行描述的流程示意图。根据图3,所述步骤s103可以具体包括:

    步骤s301,根据终端设备的画像模型,提取终端设备的正常网络访问行为信息;

    步骤s302,基于模式匹配算法,将终端设备待测的网络访问行为信息和已提取的正常网络访问行为信息进行模式匹配,如果匹配正确,则判断待测的网络访问行为为正常行为,否则,判断为异常行为。

    具体地,根据终端设备的画像模型,尤其是根据画像模型中的行为画像,可以精确提取设备的正常行为模式,进而将提取的设备的正常行为模式(包括正常网络访问行为)作为异常检测的特征,将终端设备待测的网络访问行为信息中的行为序列模式与已提取的正常行为模式进行模式匹配,如果匹配正确,则判断待测的网络访问行为为正常行为;若无法匹配或匹配程度低,则判断为异常行为,且发出告警。

    其中,所述提取的设备的正常行为模式可以以序列模式特征库的形式存储在计算机系统的数据库中。对于异常网络访问行为检测的模式匹配过程,具体描述如下:

    (1)输入待测行为序列,其输入格式与序列模式特征库中对应的行为序列一致,不需要再进行数据转换处理,直接进行模式匹配检测。

    (2)检测。首先使用序列模式特征库的行为模式构建模式树,然后利用模式树与输入的待测序列模式进行模式匹配。其中,基于行为模式构建模式树的技术可以采用现有技术来实现。

    (3)输出结果。若待测序列模式与模式树匹配成功,表示该序列模式为正常序列模式,则输出匹配特征在待测序列中的偏移位置,即是从特征中的第几个字符匹配成功的,同时输出该序列模式在特征模式库中的偏移量、匹配成功的特征模式以及匹配所用时间。

    (4)若匹配失败,则表明该待测行为序列模式在特征序列模式库中找不到匹配项,即为异常行为序列。此时输出匹配失败,并发出告警。通过异常行为分析实现仿冒终端的识别和监控。

    基于本申请的实施例,通过构建设备画像模型,根据设备的属性和特征形象化地表示设备本身和设备的行为倾向等,并利用仿冒终端与正常终端网络访问行为的差异性,基于模式匹配算法检测异常网络访问行为,能够有效判断仿冒终端。

    应当注意,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

    根据本申请的一个总的发明构思,本申请实施例还提供一种基于设备画像的异常网络访问行为检测系统。

    请参考图4,图4为本申请一个实施例提供的基于设备画像的异常网络访问行为检测系统的示意性框图。根据图4,所述基于设备画像的异常网络访问行为检测系统可以包括:

    信息获取单元101,用于获取大量终端设备的网络访问行为日志和属性信息;

    画像模型形成单元102,用于基于所获取的网络访问行为日志中终端设备的属性信息和行为信息,形成终端设备的画像模型,其中所述画像模型包括终端设备的属性画像和行为画像;

    异常检测单元103,用于基于模式匹配算法和终端设备的画像模型,检测异常网络访问行为。

    可选地,所述信息获取单元101可以包括以下模块:

    -数据处理模块,用于对已获取的网络访问行为日志或/和属性信息进行数据清洗或/和结构化处理;

    -画像数据获取模块,用于根据预设画像数据获取规则,从已进行数据清洗或/和结构化处理的网络访问行为日志或/和属性信息中获取终端设备的画像数据;

    -画像标签提取模块,用于根据所获取的画像数据,提取设备的画像标签,其中所述画像标签包括设备属性标签和行为标签。

    进一步可选地,所述画像数据获取模块包括特征字段信息提取模块和抽样模块,所述特征字段信息提取模块用于针对已进行数据清洗或/和结构化处理的网络访问行为日志或/和属性信息,提取预设的特征字段对应的特征字段信息;所述抽样模块用于对提取的特征字段信息进行抽样,其中所述抽样中的至少一部分数据用于作为终端设备的画像模型的训练数据集,至少另一部分数据用于作为终端设备的画像模型的测试数据集;

    所述画像模型形成单元具体用于:采用prefixspan算法序列模式挖掘算法对训练数据集进行频繁序列模式挖掘,以形成终端设备的画像模型。

    应当理解,上述系统可以预先设置在电子设备中,也可以通过下载等方式而加载到电子设备中。上述系统中的相应模块可以与电子设备中的模块相互配合以实现。所述电子设备包括计算机设备,所述计算机设备例如可以包括处理器以及存储有计算机程序指令的存储器。

    对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

    对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。

    对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。


    技术特征:

    1.一种基于设备画像的异常网络访问行为检测方法,其特征在于,包括:

    获取大量终端设备的网络访问行为日志和属性信息;

    基于所获取的网络访问行为日志中终端设备的属性信息和行为信息,形成终端设备的画像模型,其中所述画像模型包括终端设备的属性画像和行为画像;

    基于模式匹配算法和终端设备的画像模型,检测异常网络访问行为。

    2.根据权利要求1所述的异常网络访问行为检测方法,其特征在于,所述获取大量终端设备的网络访问行为日志和属性信息的步骤包括:

    对已获取的网络访问行为日志或/和属性信息进行数据清洗或/和结构化处理;

    根据预设画像数据获取规则,从已进行数据清洗或/和结构化处理的网络访问行为日志或/和属性信息中获取终端设备的画像数据;

    根据所获取的画像数据,提取设备的画像标签,其中所述画像标签包括设备属性标签和行为标签。

    3.根据权利要求2所述的异常网络访问行为检测方法,其特征在于,所述设备的画像标签以特征空间中的向量予以表示。

    4.根据权利要求2所述的异常网络访问行为检测方法,其特征在于,所述从已进行数据清洗或/和结构化处理的网络访问行为日志或/和属性信息中获取终端设备的画像数据的步骤包括:

    针对已进行数据清洗或/和结构化处理的网络访问行为日志或/和属性信息,提取预设的特征字段对应的特征字段信息;

    对提取的特征字段信息进行抽样,其中所述抽样中的至少一部分数据用于作为终端设备的画像模型的训练数据集,至少另一部分数据用于作为终端设备的画像模型的测试数据集;

    所述基于所获取的网络访问行为日志中终端设备的属性信息和行为信息,形成终端设备的画像模型的步骤包括:

    采用prefixspan算法序列模式挖掘算法对训练数据集进行频繁序列模式挖掘,以形成终端设备的画像模型。

    5.根据权利要求1所述的异常网络访问行为检测方法,其特征在于,所述模式匹配算法包括ac-bm算法。

    6.根据权利要求1或5所述的异常网络访问行为检测方法,其特征在于,所述基于模式匹配算法和终端设备的画像模型,检测异常网络访问行为的步骤包括:

    根据终端设备的画像模型,提取终端设备的正常网络访问行为信息;

    基于模式匹配算法,将终端设备待测的网络访问行为信息和已提取的正常网络访问行为信息进行模式匹配,如果匹配正确,则判断待测的网络访问行为为正常行为,否则,判断为异常行为。

    7.根据权利要求1所述的异常网络访问行为检测方法,其特征在于,所述检测到的异常网络访问行为包括点异常、上下文异常和集合异常。

    8.一种基于设备画像的异常网络访问行为检测系统,其特征在于,包括:

    信息获取单元,用于获取大量终端设备的网络访问行为日志和属性信息;

    画像模型形成单元,用于基于所获取的网络访问行为日志中终端设备的属性信息和行为信息,形成终端设备的画像模型,其中所述画像模型包括终端设备的属性画像和行为画像;

    异常检测单元,用于基于模式匹配算法和终端设备的画像模型,检测异常网络访问行为。

    9.根据权利要求8所述的异常网络访问行为检测系统,其特征在于,所述信息获取单元包括:

    数据处理模块,用于对已获取的网络访问行为日志或/和属性信息进行数据清洗或/和结构化处理;

    画像数据获取模块,用于根据预设画像数据获取规则,从已进行数据清洗或/和结构化处理的网络访问行为日志或/和属性信息中获取终端设备的画像数据;

    画像标签提取模块,用于根据所获取的画像数据,提取设备的画像标签,其中所述画像标签包括设备属性标签和行为标签。

    10.根据权利要求9所述的异常网络访问行为检测系统,其特征在于,所述画像数据获取模块包括特征字段信息提取模块和抽样模块,所述特征字段信息提取模块用于针对已进行数据清洗或/和结构化处理的网络访问行为日志或/和属性信息,提取预设的特征字段对应的特征字段信息;所述抽样模块用于对提取的特征字段信息进行抽样,其中所述抽样中的至少一部分数据用于作为终端设备的画像模型的训练数据集,至少另一部分数据用于作为终端设备的画像模型的测试数据集;

    所述画像模型形成单元具体用于:采用prefixspan算法序列模式挖掘算法对训练数据集进行频繁序列模式挖掘,以形成终端设备的画像模型。

    技术总结
    本申请提供了一种基于设备画像的异常网络访问行为检测方法和系统,所述方法包括:获取大量终端设备的网络访问行为日志和属性信息;基于所获取的网络访问行为日志中终端设备的属性信息和行为信息,形成终端设备的画像模型,其中所述画像模型包括终端设备的属性画像和行为画像;基于模式匹配算法和终端设备的画像模型,检测异常网络访问行为。本发明相对于现有技术,能够显著提升电力物联网终端层网络访问安全防护能力。

    技术研发人员:张文杰;李巍;赵永彬;金成明;王鸥;杨超;刘为;王飞;陈硕;张雷;周小明;王磊;于亮亮;黄兴;王楠;李娜;张靖欣;周旭;程硕
    受保护的技术使用者:国网辽宁省电力有限公司信息通信分公司;国网辽宁省电力有限公司
    技术研发日:2020.11.25
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-7866.html

    最新回复(0)