一种基于告警分析的服务器管理方法、装置与流程

专利2022-07-08 147

本发明涉及服务器管理技术领域，具体涉及一种基于告警分析的服务器管理方法、装置。

背景技术：

对于拥有多台机柜的企业，如何管理多台机柜中的节点成为了问题，当机柜结构发生变化,如何高效的实现节点自动化位置管理成为了关键。目前对大多数企业来说，都只得人工去填写节点在机柜的位置，这不仅需要很高的成本，而且不方便管理和维护。以及当节点产生告警或者出现宕机时，如何快速的利用定位系统及时定位。那么如何实现企业级的管理成为了关键，则需要关注以下问题：a.新型机柜的生产b新型机柜和节点的交互c数据结构构建d数据展示e节点管理f告警与定位相结合的问题。

技术实现要素：

针对目前对大多数企业来说，都只得人工去填写节点在机柜的位置，这不仅需要很高的成本，而且不方便管理和维护，以及当节点产生告警或者出现宕机时，不能快速的时定位的问题，本发明提供一种基于告警分析的服务器管理方法、装置。

本发明的技术方案是：

一方面，本发明技术方案提供一种基于告警分析的服务器管理方法，包括如下步骤：

扫描整个数据中心的节点，获取实时的节点状态信息；

将扫描到的节点状态信息进行与预设的告警阈值进行比较；若高于预设的告警阈值则产生告警；

当产生告警时，对告警信息进行处理，判断出可恢复的告警；

将可恢复告警进行恢复；

对告警的恢复状态进行判断；若可恢复告警在一个扫描周期内没有恢复，则将告警权数增加，当告警权数达到设定阈值时，产生紧急告警。

优选地，若高于预设的告警阈值则产生告警的步骤包括：

若节点状态信息与预设的告警阈值的差值小于第一阈值，产生轻微告警；

若节点状态信息与预设的告警阈值的差值大于第二阈值，产生严重告警；

第二阈值与第一阈值的差大于预设的权限阈值。

优选地，扫描整个数据中心的节点，获取实时的节点状态信息的步骤包括：

使用snmp协议扫描整个数据中心的节点，获取实时的节点状态信息。

优选地，使用snmp协议扫描整个数据中心的节点，获取实时的节点状态信息的步骤包括：

使用snmp协议定时扫描整个数据中心的节点；

若扫描到的节点是网络设备，则通过snmp协议获取当前设备的运行信息；

若扫描到的节点是是终端设备，则通过redfish协议，获取服务器的运行信息。

优选地，网络设备的运行信息包括内存利用率、cpu温度、cpu使用率、磁盘利用率；

服务器的运行信息包括磁盘利用率、cpu温度、cpu使用率、电源、网络、内存。

优选地，扫描整个数据中心的节点，获取实时的节点状态信息的步骤包括：

先确定机柜，通过snmp协议扫描整个网络获取当前网络内所有节点，通过把机柜传感器获取的信息和节点信息进行拼接，生成节点信息表。

另一方面，本发明技术方案还提供一种基于告警分析的服务器管理装置，包括节点状态信息获取模块、比较模块、告警信息处理模块、告警恢复模块、恢复状态判断模块、处理输出模块；

节点状态信息获取模块，用于扫描整个数据中心的节点，获取实时的节点状态信息；

比较模块，用于将扫描到的节点状态信息进行与预设的告警阈值进行比较；若高于预设的告警阈值则产生告警；

告警信息处理模块，用于当产生告警时，对告警信息进行处理，判断出可恢复的告警；

告警恢复模块，用于将可恢复告警进行恢复；

恢复状态判断模块，用于对告警的恢复状态进行判断；

处理输出模块，用于若恢复状态判断模块输出可恢复告警在一个扫描周期内没有恢复，则将告警权数增加，当告警权数达到设定阈值时，产生紧急告警。

优选地，比较模块，具体用于若节点状态信息与预设的告警阈值的差值小于第一阈值，产生轻微告警；若节点状态信息与预设的告警阈值的差值大于第二阈值，产生严重告警；其中，第二阈值与第一阈值的差大于预设的权限阈值。

优选地，节点状态信息获取模块，具体用于使用snmp协议扫描整个数据中心的节点，若扫描到的节点是网络设备，则通过snmp协议获取当前设备的运行信息；若扫描到的节点是是终端设备，则通过redfish协议，获取服务器的运行信息。

优选地，网络设备的运行信息包括内存利用率、cpu温度、cpu使用率、磁盘利用率；服务器的运行信息包括磁盘利用率、cpu温度、cpu使用率、电源、网络、内存。

优选地，节点状态信息获取模块，还用于先确定机柜，通过snmp协议扫描整个网络获取当前网络内所有节点，通过把机柜传感器获取的信息和节点信息进行拼接，生成节点信息表。

从以上技术方案可以看出，本发明具有以下优点：利用机柜中的定位传感器和告警分析系统，实现机柜内设备定位，从而摆脱人工记录节点位置的难题，从而提高工作效率，其次本方法为了高效的管理当前数据中心节点，引入了大数据告警分析模块，从而可以更有效的管理当前节点。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著地进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明一个实施例的装置的示意性框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

目前大多数服务生产厂商基于机柜的生产都是缺少所述内容的。在数据中心管理时都是依靠人工的方式去获取机柜槽位信息和机柜内节点排列信息，目前数据中心的管理方式：人工记录机柜名称，人工记录机柜内节点的位置，主观记录机柜的插槽信息，主观判断机柜u位信息，主观的记录节点在机柜的位置信息等。智能化管理方式：智能化机柜获取当前插槽个数、能够通过snmp协议查看到当前数据中心内的所有节点信息，智能化利用位置传感器获取当前机柜内节点的排列位置、u位信息等，可以使管理员只关注于结构设计和网络联通层面，而无需记录当前机柜和节点的位置信息。目前市场上把厚度为4.445cm的服务器产品定位为1u，如果厚度是4.445cm的整倍数则u位为：x/4.445＝y(其中y为u位)。

如图1所示，本发明实施例提供一种基于告警分析的服务器管理方法，包括如下步骤：

s1：扫描整个数据中心的节点，获取实时的节点状态信息；

s2：将扫描到的节点状态信息进行与预设的告警阈值进行比较；若高于预设的告警阈值则产生告警；

s3：当产生告警时，对告警信息进行处理，判断出可恢复的告警；

s4：将可恢复告警进行恢复；

s5：对告警的恢复状态进行判断；若可恢复告警在一个扫描周期内没有恢复，则将告警权数增加，当告警权数达到设定阈值时，产生紧急告警。

该方法还包括：将告警信息进行显示，显示页面整体是基于html开发的，展示层通过发送请求获取当前数据中心的所有机柜信息，通过分页的形式进行展示，用户可以点击机柜查看当前机柜内的节点排列信息。其中按照节点状态划分为四种，分别用不同的gif来表示(0：正常绿色、1：严重红色、2：警告黄色、3：离线灰色)节点按照u位划分分为三类(1u、2u、4u)节点按照类型分(服务器、交换机、路由器)。同时为了更方便用户管理节点，可以通过展示层直接操作和管理节点。

为了直观的体现数据中心的管理，展示层需具备机柜列表展示、机柜告警列表展示。节点应具备基本信息的展示(节点名称、负载、内存的使用、cpu核数、作业量)节点在机柜中位置展示、单个节点告警列表展示。

在有些实施例中，步骤s2中，若高于预设的告警阈值则产生告警的步骤包括：

若节点状态信息与预设的告警阈值的差值小于第一阈值，产生轻微告警；

若节点状态信息与预设的告警阈值的差值大于第二阈值，产生严重告警；

第二阈值与第一阈值的差大于预设的权限阈值。

在有些实施例中，扫描整个数据中心的节点，获取实时的节点状态信息的步骤包括：

使用snmp协议扫描整个数据中心的节点，获取实时的节点状态信息。

在有些实施例中，使用snmp协议扫描整个数据中心的节点，获取实时的节点状态信息的步骤包括：

使用snmp协议定时扫描整个数据中心的节点；

若扫描到的节点是网络设备，则通过snmp协议获取当前设备的运行信息；

若扫描到的节点是是终端设备，则通过redfish协议，获取服务器的运行信息。

在有些实施例中，网络设备的运行信息包括内存利用率、cpu温度、cpu使用率、磁盘利用率；

服务器的运行信息包括磁盘利用率、cpu温度、cpu使用率、电源、网络、内存。

机柜内节点信息的扫描，从而获得节点的详细信息和位置信息、u位信息等，由于把数据中心按照每个单独的机柜进行划分，对于管理员来说，只需要关注机柜的排列信息，而无需关注节点的排列。机柜可以根据传感器接口获取当前机柜内的节点位置等信息，从而可以通过ui界面化方式进行管理，管理员只需进行前期的结构设计和网络联通即可。

为了更好的管理数据中心里的节点，使用snmp协议定时扫描当前网络中所有节点，如果扫描到的节点是网络设备(路由器、交换机)则可以通过snmp协议拿到当前设备的运行信息，如果是终端设备(服务器)，则可以通过redfish协议，获取服务器更详细的运行信息。其中所获取的运行信息包括(路由器/交换机：内存利用率、cpu温度、cpu使用率、磁盘利用率等)(服务器：磁盘利用率、cpu温度、cpu使用率、电源、网络、内存等)，为了更好的管理整个数据中心，本方法中引入大数据告警分析模块。通过大数据模型从而将告警进行分类。其次服务层还包括节点单点操作和批量处理。

在有些实施例中，扫描整个数据中心的节点，获取实时的节点状态信息的步骤包括：

先确定机柜，通过snmp协议扫描整个网络获取当前网络内所有节点，通过把机柜传感器获取的信息和节点信息进行拼接，生成节点信息表。针对如何利用机柜中位置传感器获取当前机柜内节点的位置信息和u位信息，从而达到智能化管理。数据层把数据库表简单分为两个，机柜信息表和节点信息表，其中需要先确定机柜，然后通过snmp协议扫描整个网络获取当前网络内所有节点，通过把机柜传感器获取的信息和节点信息的拼接，生成节点信息表。

本发明提供的实施例中机柜应具有的属性：出厂内置机柜u位信息、机柜通过位置传感器可以拿到节点的部分数据、当机柜内节点发生变化具有自动感知功能，做到快速扫描当前机柜节点，生成节点信息表信息。

从数据中心管理来看，大多数时候为了方便管理，需要做到展示层真实化，通过展示层可以只观的看到机柜内节点的摆放位置，从而达到当出现问题时能够准确的定位。本发明实施例中，节点应具有属性：出厂内置u位信息节点放到机柜中后，可以被机柜管理，进行信息的交互。需要说明的是，节点告警产生的原理在节点管理时，对告警进行以下分类：轻微告警、可恢复告警、严重告警、紧急告警。紧急告警是指发生比较紧急事件。扫描整个数据中心的节点，获取实时的节点状态、内存、cpu、等信息，通过提前设置每项指标的告警阈值，把扫描到的节点数据进行与告警阈值比较，如果高于阈值则会产生告警，告警预设需要设置告警范围，如果高于预设阈值的最小值(在这里是的是：若节点状态信息与预设的告警阈值的差值小于第一阈值)则会产生轻微告警，如果高于阈值的最大值(在这里是的是：若节点状态信息与预设的告警阈值的差值大于第二阈值，产生严重告警)则会产生严重告警。当产生告警的时候，数据段会按照一定的要求对告警进行处理，此时结合大数据分析模型进行分析。如果大于阈值(如cpu温度、cpu利用率等)这些都是可恢复的告警，如果可恢复告警在一个扫描周期内没有恢复，则把告警权数增加，直到产生紧急告警。

如图2所示，本发明实施例还提供一种基于告警分析的服务器管理装置，包括节点状态信息获取模块、比较模块、告警信息处理模块、告警恢复模块、恢复状态判断模块、处理输出模块；

节点状态信息获取模块，用于扫描整个数据中心的节点，获取实时的节点状态信息；

比较模块，用于将扫描到的节点状态信息进行与预设的告警阈值进行比较；若高于预设的告警阈值则产生告警；

告警信息处理模块，用于当产生告警时，对告警信息进行处理，判断出可恢复的告警；

告警恢复模块，用于将可恢复告警进行恢复；

恢复状态判断模块，用于对告警的恢复状态进行判断；

在有些实施例中，比较模块，具体用于若节点状态信息与预设的告警阈值的差值小于第一阈值，产生轻微告警；若节点状态信息与预设的告警阈值的差值大于第二阈值，产生严重告警；其中，第二阈值与第一阈值的差大于预设的权限阈值。

在有些实施例中，节点状态信息获取模块，具体用于使用snmp协议扫描整个数据中心的节点，若扫描到的节点是网络设备，则通过snmp协议获取当前设备的运行信息；若扫描到的节点是是终端设备，则通过redfish协议，获取服务器的运行信息。

在有些实施例中，网络设备的运行信息包括内存利用率、cpu温度、cpu使用率、磁盘利用率；服务器的运行信息包括磁盘利用率、cpu温度、cpu使用率、电源、网络、内存。

在有些实施例中，节点状态信息获取模块，还用于先确定机柜，通过snmp协议扫描整个网络获取当前网络内所有节点，通过把机柜传感器获取的信息和节点信息进行拼接，生成节点信息表。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

技术特征：

1.一种基于告警分析的服务器管理方法，其特征在于，包括如下步骤：

扫描整个数据中心的节点，获取实时的节点状态信息；

将扫描到的节点状态信息进行与预设的告警阈值进行比较；若高于预设的告警阈值则产生告警；

当产生告警时，对告警信息进行处理，判断出可恢复的告警；

将可恢复告警进行恢复；

对告警的恢复状态进行判断；若可恢复告警在一个扫描周期内没有恢复，则将告警权数增加，当告警权数达到设定阈值时，产生紧急告警。

2.根据权利要求1所述的基于告警分析的服务器管理方法，其特征在于，若高于预设的告警阈值则产生告警的步骤包括：

若节点状态信息与预设的告警阈值的差值小于第一阈值，产生轻微告警；

若节点状态信息与预设的告警阈值的差值大于第二阈值，产生严重告警；

第二阈值与第一阈值的差大于预设的权限阈值。

3.根据权利要求2所述的基于告警分析的服务器管理方法，其特征在于，扫描整个数据中心的节点，获取实时的节点状态信息的步骤包括：

使用snmp协议扫描整个数据中心的节点，获取实时的节点状态信息。

4.根据权利要求3所述的基于告警分析的服务器管理方法，其特征在于，使用snmp协议扫描整个数据中心的节点，获取实时的节点状态信息的步骤包括：

使用snmp协议定时扫描整个数据中心的节点；

若扫描到的节点是网络设备，则通过snmp协议获取当前设备的运行信息；

若扫描到的节点是是终端设备，则通过redfish协议，获取服务器的运行信息。

5.根据权利要求4所述的基于告警分析的服务器管理方法，其特征在于，网络设备的运行信息包括内存利用率、cpu温度、cpu使用率、磁盘利用率；

服务器的运行信息包括磁盘利用率、cpu温度、cpu使用率、电源、网络、内存。

6.根据权利要求4所述的基于告警分析的服务器管理方法，其特征在于，扫描整个数据中心的节点，获取实时的节点状态信息的步骤包括：

先确定机柜，通过snmp协议扫描整个网络获取当前网络内所有节点，通过把机柜传感器获取的信息和节点信息进行拼接，生成节点信息表。

7.一种基于告警分析的服务器管理装置，其特征在于，包括节点状态信息获取模块、比较模块、告警信息处理模块、告警恢复模块、恢复状态判断模块、处理输出模块；

节点状态信息获取模块，用于扫描整个数据中心的节点，获取实时的节点状态信息；

比较模块，用于将扫描到的节点状态信息进行与预设的告警阈值进行比较；若高于预设的告警阈值则产生告警；

告警信息处理模块，用于当产生告警时，对告警信息进行处理，判断出可恢复的告警；

告警恢复模块，用于将可恢复告警进行恢复；

恢复状态判断模块，用于对告警的恢复状态进行判断；

8.根据权利要求7所述的基于告警分析的服务器管理装置，其特征在于，比较模块，具体用于若节点状态信息与预设的告警阈值的差值小于第一阈值，产生轻微告警；若节点状态信息与预设的告警阈值的差值大于第二阈值，产生严重告警；其中，第二阈值与第一阈值的差大于预设的权限阈值。

9.根据权利要求8所述的基于告警分析的服务器管理装置，其特征在于，节点状态信息获取模块，具体用于使用snmp协议扫描整个数据中心的节点，若扫描到的节点是网络设备，则通过snmp协议获取当前设备的运行信息；若扫描到的节点是是终端设备，则通过redfish协议，获取服务器的运行信息。

10.根据权利要求9所述的基于告警分析的服务器管理装置，其特征在于，网络设备的运行信息包括内存利用率、cpu温度、cpu使用率、磁盘利用率；服务器的运行信息包括磁盘利用率、cpu温度、cpu使用率、电源、网络、内存。

技术总结
本发明提供一种基于告警分析的服务器管理方法、装置，所述方法包括如下步骤：扫描整个数据中心的节点，获取实时的节点状态信息；将扫描到的节点状态信息进行与预设的告警阈值进行比较；若高于预设的告警阈值则产生告警；当产生告警时，对告警信息进行处理，判断出可恢复的告警；将可恢复告警进行恢复；对告警的恢复状态进行判断；若可恢复告警在一个扫描周期内没有恢复，则将告警权数增加，当告警权数达到设定阈值时，产生紧急告警。为了高效的管理当前数据中心节点，引入了大数据告警分析模块，从而可以更有效的管理当前节点。

技术研发人员：李东轩
受保护的技术使用者：苏州浪潮智能科技有限公司
技术研发日：2020.10.23
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-22741.html

专利

最新回复(0)