一种分布式系统管理方法、系统、设备以及介质与流程

    专利2022-07-08  92

    本发明涉及分布式系统领域,具体涉及一种分布式系统管理方法、系统、设备以及存储介质。
    背景技术
    ::分布式系统中,单节点故障有可能成为影响整个系统可靠性的因素,尤其在集群规模较大的情况下,找到出问题的节点也具有一定的难度,容易耗费大量的时间。因此基于系统可靠性的考虑,会对系统节点进行性能监控及告警机制设计。但是告警机制是在节点或者系统已经出现问题的情况下产生告警并提醒用户系统已经出现状况,需要用户根据告警去排查出问题的节点并根据告警信息手动对问题节点进行操作,如重启,移除,隔离等,从而解决问题,恢复集群。在收到告警,排查问题并手动操作的过程中往往较耗时,尤其在集群规模较大的情况下,耗时会随之上升。在这个过程中可能系统的可用性受到影响,甚至影响到服务业务,使系统的容错率受到限制。但是系统告警机制一般针对单一的指标,难以发现组合指标的问题。同时,告警的阈值一般设置较高,如果出现多个指标升高但都未达到告警阈值,并不会产生相关告警及处理。技术实现要素:有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种分布式系统管理方法,包括以下步骤:配置置信类型表和指标表;建立所述置信类型表中的每一个置信类型与所述指标表中的一个或多个指标之间的映射,并建立所述指标表中的每一个指标与一个或多个节点之间的映射;从每一个所述节点中采集并记录相应的满足预设条件的指标以得到指标记录表;根据所述指标记录表、所述指标表和所述置信类型表确定需要处理的节点,并根据所述置信类型表中配置的处理方法对所述需要处理的节点进行处理。在一些实施例中,配置置信类型表,进一步包括:在所述置信类型表中创建多个置信类型;为每一个所述置信类型配置包括等级、周期、数据点以及对节点的处理方法的属性。在一些实施例中,配置指标表,进一步包括:在所述指标表中创建多个指标。在一些实施例中,所述指标记录表中每一个条目均包括满足预设条件的指标、发生时间以及对应节点。在一些实施例中,根据所述指标记录表、所述指标表和所述置信类型表确定需要处理的节点,进一步包括:根据所述置信类型表中的每一个置信类型与所述指标表中的一个或多个指标的映射关系确定所述指标记录表中属于同一个节点的若干个条目分别对应的置信类型;根据所述置信类型表获取若干个所述对应的置信类型的属性,以分别根据所述属性判断所述同一个节点是否需要处理。在一些实施例中,根据所述属性判断所述同一个节点是否需要处理,进一步包括:判断所述若干个条目中对应于同一个置信类型的数量在所述同一个置信类型对应的周期内是否达到所述同一个置信类型对应的数据点;响应于达到,判定所述同一个节点需要进行处理。在一些实施例中,根据所述置信类型表中配置的处理方法对所述需要处理的节点进行处理,进一步包括:响应于所述若干个置信类型分别对所述同一个节点的判断结果均为需要进行处理,则从所述若干个置信类型中选择等级最高的置信类型对应的处理方法对所述同一个节点进行处理。基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种分布式系统管理系统,包括:配置模块,所述配置模块配置为配置置信类型表和指标表;映射模块,所述映射模块配置为建立所述置信类型表中的每一个置信类型与所述指标表中的一个或多个指标之间的映射,并建立所述指标表中的每一个指标与一个或多个节点之间的映射;采集模块,所述采集模块配置为从每一个所述节点中采集并记录相应的满足预设条件的指标以得到指标记录表;确定模块,所述确定模块配置为根据所述指标记录表、所述指标表和所述置信类型表确定需要处理的节点,并根据所述置信类型表中配置的处理方法对所述需要处理的节点进行处理。基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如上所述的任一种分布式系统管理方法的步骤。基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如上所述的任一种分布式系统管理方法的步骤。本发明具有以下有益技术效果之一:本发明提出的方案能够将指标、置信类型及应对处理方案的配置放开给用户,用户可根据实际需求或不同场景自主地进行相关配置,大大提高了对节点管理的灵活性。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。图1为本发明的实施例提供的分布式系统管理方法的流程示意图;图2为本发明的实施例提供的分布式系统管理系统的结构示意图;图3为本发明的实施例提供的计算机设备的结构示意图;图4为本发明的实施例提供的计算机可读存储介质的结构示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。根据本发明的一个方面,本发明的实施例提出一种分布式系统管理方法,如图1所示,其可以包括步骤:s1,配置置信类型表和指标表;s2,建立所述置信类型表中的每一个置信类型与所述指标表中的一个或多个指标之间的映射,并建立所述指标表中的每一个指标与一个或多个节点之间的映射;s3,从每一个所述节点中采集并记录相应的满足预设条件的指标以得到指标记录表;s4,根据所述指标记录表、所述指标表和所述置信类型表确定需要处理的节点,并根据所述置信类型表中配置的处理方法对所述需要处理的节点进行处理。本发明提出的方案能够将指标、置信类型及应对处理方案的配置放开给用户,用户可根据实际需求或不同场景自主地进行相关配置,大大提高了对节点管理的灵活性。在一些实施例中,步骤s1,配置置信类型表,进一步包括:在所述置信类型表中创建多个置信类型;为每一个所述置信类型配置包括等级、周期、数据点以及对节点的处理方法的属性。具体的,用户可以通过置信类型配置模块自定义置信类型,置信类型的等级越高对应的异常发生的概率越大,同时为不同置信类型配置属性,包括周期,数据点及对节点的操作或操作组合,如重启、隔离、移除等。每一个置信类型的属性可以记录在置信类型表(confidence_type_table)中。在一些实施例中,步骤s1,配置指标表,进一步包括:在所述指标表中创建多个指标。具体的,用户可以在指标配置模块根据需求配置自己关心的指标,如内存占用率,硬盘读写率,严重报错数等。在一些实施例中,步骤s2,建立所述置信类型表中的每一个置信类型与所述指标表中的一个或多个指标映射,并建立所述指标表中的每一个指标与一个或多个节点的映射,具体的,用户可以为指标设置对应的置信类型,同一置信类型可以配置给多个预测指标,对应的映射关系可以存在指标表(predict_metrics_table)中,也可以存在于置信类型表中。用户还可以为每一个节点设置对应的指标,同一指标可以配置给多个节点,对应的映射关系可以存在于指标表中。在一些实施例中,所述指标记录表中每一个条目均包括满足预设条件的指标、发生时间以及对应节点。具体的,指标记录表(metrics_record_table)可以用来追踪收到的指标信息的时间与发生的节点。在系统性能监控收集到符合预设条件的用户配置过的关于指标的记录后,即在指标记录表(metrics_record_table)中创建一条关于指标的条目,包括指标(predict_metric)、发生的时间(time)和所在节点(node_name)。在一些实施例中,步骤s4,根据所述指标记录表、所述指标表和所述置信类型表确定需要处理的节点,进一步包括:根据所述置信类型表中的每一个置信类型与所述指标表中的一个或多个指标的映射关系确定所述指标记录表中属于同一个节点的若干个条目分别对应的置信类型;根据所述置信类型表获取若干个所述对应的置信类型的属性,以分别根据所述属性判断所述同一个节点是否需要处理。具体的,通过扫描指标记录表(metrics_record_table)并结合预测指标表(predict_metrics_table),得到各节点上不同置信类型的数量。再结合置信类型表(confidence_type_table)过滤出符合配置条件下的节点的置信类型数量,如果只存在一个符合条件的节点,则该节点为预测的该系统中最大概率出问题的节点,然后根据置信类型的属性进行处理,例如,若配置置信类型的等级为5,并配置其周期为3小时,数据点为10,操作为重启,代表对于置信类型为5的类型,在3小时的周期内如果该置信类型对应的预测指标记录出现10次,则对出现该预测指标的节点进行重启。如果存在多个符合条件的节点,可根据其不同置信类型的数量比较分析,如节点最高等级置信类型数量最多,则预判此节点为当前问题概率最大节点。由此可预测出基于用户配置的系统中情况最坏的节点,并根据对置信类型的节点处理机制自动化地对预测到最坏情况的节点进行处理。在一些实施例中,根据所述属性判断所述同一个节点是否需要处理,进一步包括:判断所述若干个条目中对应于同一个置信类型的数量在所述同一个置信类型对应的周期内是否达到所述同一个置信类型对应的数据点;响应于达到,判定所述同一个节点需要进行处理。具体的,例如指标记录表中属于同一个节点的条目包括10个。10个条目对应的置信类型可以是一个也可以是多个。当置信类型的数据点为5,10个条目中的5个条目对应于该置信类型,且该5个条目在该置信类型的周期内,且该则判定该节点需要进行处理。这里5个条目可能对应于不同的指标。在一些实施例中,根据所述置信类型表中配置的处理方法对所述需要处理的节点进行处理,进一步包括:响应于所述若干个置信类型分别对所述同一个节点的判断结果均为需要进行处理,则从所述若干个置信类型中选择等级最高的置信类型对应的处理方法对所述同一个节点进行处理。具体的,当一个节点分别通过多个置信类型的判定均需要进行处理,则可以从多个置信类型中选择等级最高的置信类型对应的处理方法进行处理,或者将多个置信类型对应的处理方法组合进行处理。本发明提出的方案能够将指标、置信类型及应对处理方案的配置放开给用户,用户可根据实际需求或不同场景自主地进行相关配置,大大提高了对节点管理的灵活性。基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种分布式系统管理系统400,如图2所示,包括:配置模块401,所述配置模块401配置为配置置信类型表和指标表;映射模块402,所述映射模块402配置为建立所述置信类型表中的每一个置信类型与所述指标表中的一个或多个指标之间的映射,并建立所述指标表中的每一个指标与一个或多个节点之间的映射;采集模块403,所述采集模块403配置为从每一个所述节点中采集并记录相应的满足预设条件的指标以得到指标记录表;确定模块404,所述确定模块404配置为根据所述指标记录表、所述指标表和所述置信类型表确定需要处理的节点,并根据所述置信类型表中配置的处理方法对所述需要处理的节点进行处理。基于同一发明构思,根据本发明的另一个方面,如图3所示,本发明的实施例还提供了一种计算机设备501,包括:至少一个处理器520;以及存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行如上的任一种分布式系统管理方法的步骤。基于同一发明构思,根据本发明的另一个方面,如图4所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序指令610,计算机程序指令610被处理器执行时执行如上的任一种分布式系统管理方法的步骤。最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。当前第1页1 2 3 当前第1页1 2 3 
    技术特征:

    1.一种分布式系统管理方法,其特征在于,包括以下步骤:

    配置置信类型表和指标表;

    建立所述置信类型表中的每一个置信类型与所述指标表中的一个或多个指标之间的映射,并建立所述指标表中的每一个指标与一个或多个节点之间的映射;

    从每一个所述节点中采集并记录相应的满足预设条件的指标以得到指标记录表;

    根据所述指标记录表、所述指标表和所述置信类型表确定需要处理的节点,并根据所述置信类型表中配置的处理方法对所述需要处理的节点进行处理。

    2.如权利要求1所述的方法,其特征在于,配置置信类型表,进一步包括:

    在所述置信类型表中创建多个置信类型;

    为每一个所述置信类型配置包括等级、周期、数据点以及对节点的处理方法的属性。

    3.如权利要求1所述的方法,其特征在于,配置指标表,进一步包括:

    在所述指标表中创建多个指标。

    4.如权利要求2所述的方法,其特征在于,所述指标记录表中每一个条目均包括满足预设条件的指标、发生时间以及对应节点。

    5.如权利要求4所述的方法,其特征在于,根据所述指标记录表、所述指标表和所述置信类型表确定需要处理的节点,进一步包括:

    根据所述置信类型表中的每一个置信类型与所述指标表中的一个或多个指标的映射关系确定所述指标记录表中属于同一个节点的若干个条目分别对应的置信类型;

    根据所述置信类型表获取若干个所述对应的置信类型的属性,以分别根据所述属性判断所述同一个节点是否需要处理。

    6.如权利要求5所述的方法,其特征在于,根据所述属性判断所述同一个节点是否需要处理,进一步包括:

    判断所述若干个条目中对应于同一个置信类型的数量在所述同一个置信类型对应的周期内是否达到所述同一个置信类型对应的数据点;

    响应于达到,判定所述同一个节点需要进行处理。

    7.如权利要求5所述的方法,其特征在于,根据所述置信类型表中配置的处理方法对所述需要处理的节点进行处理,进一步包括:

    响应于所述若干个置信类型分别对所述同一个节点的判断结果均为需要进行处理,则从所述若干个置信类型中选择等级最高的置信类型对应的处理方法对所述同一个节点进行处理。

    8.一种分布式系统管理系统,其特征在于,包括:

    配置模块,所述配置模块配置为配置置信类型表和指标表;

    映射模块,所述映射模块配置为建立所述置信类型表中的每一个置信类型与所述指标表中的一个或多个指标之间的映射,并建立所述指标表中的每一个指标与一个或多个节点之间的映射;

    采集模块,所述采集模块配置为从每一个所述节点中采集并记录相应的满足预设条件的指标以得到指标记录表;

    确定模块,所述确定模块配置为根据所述指标记录表、所述指标表和所述置信类型表确定需要处理的节点,并根据所述置信类型表中配置的处理方法对所述需要处理的节点进行处理。

    9.一种计算机设备,包括:

    至少一个处理器;以及

    存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1-7任意一项所述的方法的步骤。

    10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行如权利要求1-7任意一项所述的方法的步骤。

    技术总结
    本发明公开了一种分布式系统管理方法,包括以下步骤:配置置信类型表和指标表;建立置信类型表中的每一个置信类型与指标表中的一个或多个指标之间的映射,并建立指标表中的每一个指标与一个或多个节点之间的映射;从每一个节点中采集并记录相应的满足预设条件的指标以得到指标记录表;根据指标记录表、指标表和置信类型表确定需要处理的节点,并根据置信类型表中配置的处理方法对需要处理的节点进行处理。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案能够将指标、置信类型及应对处理方案的配置放开给用户,用户可根据实际需求或不同场景自主地进行相关配置,大大提高了对节点管理的灵活性。

    技术研发人员:李晓静
    受保护的技术使用者:苏州浪潮智能科技有限公司
    技术研发日:2020.11.28
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-22709.html

    最新回复(0)