本发明涉及数据处理领域,具体涉及一种基于计算机数据处理的运维智能检测方法及系统。
背景技术:
1、随着计算机的普及和发展,在拥有海量设备且高度复杂的环境下,为了支持系统的快速上线、灵活伸缩,运维压力逐步增加,在运维过程中,会产生大量的运维数据,运维数据对于故障的解决有着重要意义,也有利于持续进行系统及网站的优化。
2、现有技术中,各地区的运维系统各自对本地的数据进行分析,各地区的分析模型也是相互独立的。然而,跨地域的运维数据有时存在一些相似性,现有技术在各地分别建模计算的方式,会导致算力资源的重复使用,资源利用率较低。此外,传统的数据表示方式,难以体现数据之间的深层特性和网络拓扑关系。
技术实现思路
1、本发明所要解决的技术问题是:提出一种基于计算机数据处理的运维智能检测方法及系统,通过统筹主节点设备和子节点设备的资源,实现云边协同,实现资源的合理分配和高效利用。
2、本发明解决上述技术问题采用的技术方案是:
3、一方面,本发明提供了一种基于计算机数据处理的运维智能检测方法,应用于包括多个子节点设备和至少一个主节点设备的分布式场景中,该方法包括以下步骤:
4、s1、在子节点设备,利用图表示模型,根据子节点设备的运维数据,生成图表示向量,所述图表示模型由子节点设备与主节点设备基于联邦学习共同训练得到;
5、s2、子节点设备将图表示向量发送给主节点设备;
6、s3、在主节点设备,根据接收到的各个子节点设备的图表示向量,构建运维知识图谱,所述运维知识图谱中的一个顶点表示故障类型、故障原因、故障处理方式的一种;
7、s4、在主节点设备,对运维知识图谱中的顶点进行聚类分析,得到聚类结果;
8、s5、在主节点设备,根据聚类结果,生成对故障事件的推荐信息。
9、进一步的,所述图表示模型的训练方法包括:
10、各子节点设备根据本地的运维数据,训练图表示模型,得到图表示模型的第一参数;
11、各子节点设备将训练得到的图表示模型的第一参数发送给主节点设备;
12、主节点设备通过聚合各子节点设备发送的第一参数,获得第二参数,并下发至各子节点设备;
13、各子节点设备利用接收到的第二参数更新图表示模型;
14、循环上述过程,直至达到训练截止条件,获得训练完成的图表示模型。
15、进一步的,在图表示模型的训练过程中,将告警日志和工单数据作为训练样本,训练样本来源于历史静态数据和动态实时数据;其中,对于动态的流数据,通过实时数据管道和流应用程序,构建消息队列,采用时间窗口的方式读取数据。
16、进一步的,步骤s1中,所述利用图表示模型,根据子节点设备的运维数据,生成图表示向量,包括:
17、首先,将运维数据转化为图结构数据,其中,图结构数据中的一个顶点表示故障类型、故障原因、故障处理方式的一种;
18、然后,根据图结构数据中顶点的连接关系,生成邻接矩阵;其中,在图结构数据中第i个顶点和第j个顶点相连接的情况下,邻接矩阵中的元素aij的值为第一值,在图结构数据中第j个顶点和第j个顶点不连接的情况下,邻接矩阵中的元素aij的值为第二值,i和j为自然数;
19、接着,根据图结构数据中的各顶点的属性,生成权重矩阵;其中,权重矩阵中的元素eij表示图结构数据中第i个顶点和第j个顶点之间的匹配程度,且任一子节点设备的权重矩阵与其他子节点设备的权重矩阵不相同;
20、最后,利用图表示模型,基于邻接矩阵、权重矩阵和单位矩阵,生成图表示向量。
21、进一步的,所述故障类型包括第一类型和第二类型、所述故障原因包括第一原因和第二原因、所述故障处理方式包括第一处理方式和第二处理方式;
22、所述权重矩阵中的元素eij表示图结构数据中第i个顶点和第j个顶点之间的匹配程度,具体分为:
23、在第i个顶点为第一类型,第j个顶点为第一原因的情况下,eij表示第一原因是造成第一类型的故障的原因的概率;
24、在第i个顶点为第二类型,第j个顶点为第一处理方式的情况下,eij表示第一处理方式解决第二类型的故障的概率;
25、在第i个顶点为第二原因,第j个顶点为第二处理方式的情况下,eij表示第二处理方式解决第二原因的故障的概率。
26、进一步的,所述图表示模型为图卷积神经网络;
27、所述利用图表示模型,基于邻接矩阵、权重矩阵和单位矩阵,生成图表示向量,包括:
28、根据邻接矩阵、权重矩阵与单位矩阵,生成第一矩阵;
29、对第一矩阵进行归一化处理,得到第二矩阵;
30、利用图表示模型,根据第二矩阵,生成图表示向量。
31、进一步的,步骤s4中,利用谱聚类方法对运维知识图谱中的顶点进行聚类分析。
32、第二方面,本发明还提供了一种基于计算机数据处理的运维智能检测系统,其包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时,实现如前述的基于计算机数据处理的运维智能检测方法。
33、本发明的有益效果是:
34、本发明中的子节点设备基于本地运维数据,进行计算和模型训练,并上传至主节点设备,由主节点设备进行汇总和处理,实现参数传递和边缘节点的本地模型的更新。即,通过联邦学习的方式训练模型,实现了资源的合理分配和高效利用,并兼顾了运维数据的隐私保护,提高了数据安全性,统筹了主节点设备和子节点设备的资源,实现云边协同。
35、而在数据的表示方面,通过将运维数据表示为图表示向量,体现了数据之间的深层特性和网络拓扑关系,包含了更丰富的语义信息,从而为运维知识图谱的构建和利用运维知识图谱进行故障处理推荐提供了较好的基础。
1.一种基于计算机数据处理的运维智能检测方法,应用于包括多个子节点设备和至少一个主节点设备的分布式场景中,其特征在于,该方法包括以下步骤:
2.如权利要求1所述的一种基于计算机数据处理的运维智能检测方法,其特征在于,
3.如权利要求2所述的一种基于计算机数据处理的运维智能检测方法,其特征在于,
4.如权利要求1所述的一种基于计算机数据处理的运维智能检测方法,其特征在于,
5.如权利要求4所述的一种基于计算机数据处理的运维智能检测方法,其特征在于,
6.如权利要求4所述的一种基于计算机数据处理的运维智能检测方法,其特征在于,
7.如权利要求1-6任意一项所述的一种基于计算机数据处理的运维智能检测方法,其特征在于,步骤s4中,利用谱聚类方法对运维知识图谱中的顶点进行聚类分析。
8.一种基于计算机数据处理的运维智能检测系统,包括处理器和存储器,其特征在于,