本发明属于集群状态监控领域,特别涉及一种集群成员节点可用性监测设备及方法。
背景技术:
单台计算机的性能越来越好,但还是有许多要求是单台计算机难以达到的,往往需要将多台计算机组织起来进行协同工作来模拟一台功能更强大的计算机来解决问题,此技术称为集群技术。计算机集群是由一组互连的节点构成统一的资源,通过相应软件协调工作的计算机机群。组成集群的节点可以是pc计算机、工作站,也可以是对称多处理机(smp),它们分别构成pc集群、工作站集群和smp集群。
为了支撑集群信息系统进行高效的运维管理,需要设计监测设备及技术机制,实时监控集群中成员节点的软硬件运行状态。传统的集群状态监控机制大都为基于软件和人工相结合的方式,主动监控运维能力亟待提高。故需要提供一种集群成员节点可用性监测设备与方法来解决上述集群信息系统软硬件运行状态实时监测的问题。
技术实现要素:
本发明的目的在于针对上述现有技术存在的问题,提供一种实现集群信息系统中节点状态在线监测,提高集群信息系统中节点状态监测准确率、监控粒度、监控实时性、异常事件的故障检测设备,能够在一定程度上提高故障检测的效率、提高故障定位精度,支撑关键应用任务的机制,更好地满足关键集群信息系统的可靠性需求,尤其是信息处理系统、应用服务系统。
实现本发明目的的技术解决方案为:一种集群成员节点可用性监测设备,所述设备包括与集群使用的网络互联设备相连的节点状态监测模块、监测管理模块、故障比对模块和状态信息通知模块;
所述节点状态监测模块,用于监测与网络互联设备相连的集群信息系统内部主机节点的状态,实现节点状态监测,并通过网络互联设备传送给监测管理模块;
所述故障比对模块,用于根据主机节点状态数据判定主机节点是否出现故障事件,并将故障事件传送给监测管理模块;
所述监测管理模块,用于对其所连接的节点状态监测模块获取到的主机节点状态数据进行数据汇聚,并进行保存记录;还用于将故障事件发送给状态信息通知模块;
所述状态信息通知模块,用于实现故障事件的提示或输出。
进一步地,所述节点状态监测为监测主机节点的运行状态,所述运行状态包括硬件状态、网络状态、存储状态、应用状态。
进一步地,所述根据主机节点状态数据判定主机节点是否出现故障事件,并将故障事件传送给监测管理模块,具体过程包括:
故障比对模块从监测管理模块获取最新的一组状态数据,并将各状态数据项与对应的故障模式进行匹配;
若匹配度均小于对应的预设阈值,则表示未出现故障事件,返回上一步,继续比较最新的状态数据;否则表示出现故障事件,根据匹配的故障模式,生成每个故障事件对应的故障异常信息,并将故障事件传送给监测管理模块,之后返回上一步,继续比较最新的状态数据。
进一步地,所述数据汇聚为格式整理和条目精简,具体包括:
1)将硬件状态、网络状态、存储状态、应用状态数据转换为相同的格式,并合并关联的状态数据;
2)删除一段时间内的重复状态数据;
3)建立数据项的依赖关系。
进一步地,所述保存记录具体包括:
1)缓存节点状态监测模块传送过来的主机节点状态数据;
2)为主机节点状态数据附加上时间戳;
3)将主机节点状态数据写入日志文件或数据库。
进一步地,所述实现故障事件的提示或输出,具体包括:
根据故障事件的类型,状态信息通知模块通过不同的组合指示灯表示该故障事件;
根据故障事件的类型,状态信息通知模块通过不同的网络接口对外发送该故障事件。
一种集群成员节点可用性监测方法,所述方法包括以下步骤:
步骤1,将节点状态监测模块、监测管理模块、故障比对模块以及状态信息通知模块与集群使用的网络互联设备连接;
步骤2,节点状态监测模块监测集群信息系统内部主机节点的状态,实现节点状态监测,并通过网络互联设备传送给监测管理模块;
步骤3,监测管理模块对所连接的节点状态监测模块获取到的状态数据进行数据汇聚,并进行保存记录;
步骤4,故障比对模块根据主机节点状态数据判定主机节点是否出现故障事件,若出现故障事件,将该故障事件传送给监测管理模块;
步骤5,监测管理模块将故障事件发送给状态信息通知模块,状态信息通知模块通过接口实现故障异常事件的提示或输出。
本发明与现有技术相比,其显著优点为:1)支持主机节点的多个状态数据监测,包括集群中主机节点软件故障的监测,集群中主机节点存储硬件的故障监测,集群中主机节点网络硬件的故障监测,集群中主机节点cpu硬件的故障监测,集群中主机节点gpu硬件的故障监测,同时支持直观显示集群系统的故障及健康状况;2)提高集群信息系统节点状态监控准确率、监控粒度、监控实时性,克服传统人工操作模式存在的粒度粗、实时性差、能力单一、扩展性差等不足。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为一个实施例中集群节点可用性监测设备结构示意图。
图2为一个实施例中集群节点可用性监测设备部署示意图。
图3为一个实施例中集群节点可用性监测设备结构示意图。
图4为一个实施例中集群节点可用性监测设备部署示意图。
图5为一个实施例中集群节点可用性监测方法示意图。
图6为一个实施例中使用集群节点可用性监测设备进行故障检测的方法流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明涉及集群信息系统节点的状态在线监测设备,尤其涉及集群信息系统中监测主机节点硬件状态、网络状态、存储状态、关键应用的平台。
在一个实施例中,结合图1和图2,提供了一种集群成员节点可用性监测设备1,所述设备包括与集群信息系统7使用的网络互联设备6相连的节点状态监测模块2、监测管理模块3、故障比对模块5和状态信息通知模块4;
所述节点状态监测模块,用于监测与网络互联设备相连的集群信息系统内部主机节点的状态,实现节点状态监测,并通过网络互联设备传送给监测管理模块;
所述故障比对模块,用于根据主机节点状态数据判定主机节点是否出现故障事件,并将故障事件传送给监测管理模块;
所述监测管理模块,用于对其所连接的节点状态监测模块获取到的主机节点状态数据进行数据汇聚,并进行保存记录;还用于将故障事件发送给状态信息通知模块;
所述状态信息通知模块,用于实现故障事件的提示或输出。
这里,节点状态监测模块、监测管理模块、状态信息通知模块安装对应的数据采集、数据融合和信息通知展示组件,用于主机节点故障检测。该设备支持千兆、万兆以太网,支持本地存储模块,或对接网络存储系统,支持tcp/ip、snmp、telnet、ssh等协议。
这里,节点状态监测模块的数量可以扩展为多个。如图3和图4所示,可用性监测设备1包括第一节点状态监测模块2-a、第二节点状态监测模块2-b、第三节点状态监测模块2-c、监测管理模块3、状态信息通知模块4、故障比对模块5,节点状态监测模块的数量扩展为3个。
进一步地,在其中一个实施例中,所述节点状态监测为监测主机节点的运行状态,所述运行状态包括硬件状态、网络状态、存储状态、关键应用状态(所关注应用的状态);具体包括:
1)监测主机节点cpu使用率、gpu使用率、内存使用率、温度、风扇转速等;
2)监测主机节点网络连接的状态、传输速率等;
3)监测主机节点存储系统的容量;
4)监测任务应用运行过程的数据及其运行状态。
进一步地,在其中一个实施例中,所述根据主机节点状态数据判定主机节点是否出现故障事件,并将故障事件传送给监测管理模块,具体过程包括:
故障比对模块从监测管理模块获取最新的一组状态数据,并将各状态数据项与对应的故障模式进行匹配;
若匹配度均小于对应的预设阈值,则表示未出现故障事件,返回上一步,继续比较最新的状态数据;否则表示出现故障事件,根据匹配的故障模式,生成每个故障事件对应的故障异常信息,并将故障事件传送给监测管理模块,之后返回上一步,继续比较最新的状态数据。
进一步地,在其中一个实施例中,所述数据汇聚为格式整理和条目精简,具体包括:
1)将硬件状态、网络状态、存储状态、应用状态数据转换为相同的格式,并合并关联的状态数据;
2)删除一段时间内的重复状态数据;
3)建立数据项的依赖关系。
进一步地,在其中一个实施例中,所述保存记录具体包括:
1)缓存节点状态监测模块传送过来的主机节点状态数据;
2)为主机节点状态数据附加上时间戳;
3)将主机节点状态数据写入日志文件或数据库。
进一步地,在其中一个实施例中,所述实现故障事件的提示或输出,具体包括:
根据故障事件的类型,状态信息通知模块通过不同的组合指示灯表示该故障事件;
根据故障事件的类型,状态信息通知模块通过不同的网络接口对外发送该故障事件。
在一个实施例中,结合图5和图6,提供了一种集群成员节点可用性监测方法,所述方法包括以下步骤:
步骤1,将节点状态监测模块、监测管理模块、故障比对模块以及状态信息通知模块与集群使用的网络互联设备连接;
步骤2,节点状态监测模块监测集群信息系统内部主机节点的状态,实现节点状态监测,并通过网络互联设备传送给监测管理模块;
步骤3,监测管理模块对所连接的节点状态监测模块获取到的状态数据进行数据汇聚,并进行保存记录;
步骤4,故障比对模块根据主机节点状态数据判定主机节点是否出现故障事件,若出现故障事件,将该故障事件传送给监测管理模块;
步骤5,监测管理模块将故障事件发送给状态信息通知模块,状态信息通知模块通过接口实现故障异常事件的提示或输出。
关于集群成员节点可用性监测方法的具体限定可以参见上文中对于集群成员节点可用性监测系统的限定,在此不再赘述。
下面介绍本发明可用性监测设备的具体应用:
在一个实施例中,提供了一种集群信息系统故障检测架构,所述架构包含:集群、可用性监测设备、硬件传感器、监测组件、应用任务;所述可用性监测设备与集群网络互联,运行应用任务的集群内部主机节点上安装硬件传感器和监测组件;所述可用性监测设备用于监控主机节点和应用任务,并且对主机节点和应用任务的状态进行保存记录。
进一步地,所述集群信息系统故障检测架构,对于linux或windows的主机节点,监测组件可以通过snmp、tcp/ip、ssh、telnet等通用协议传输监测的状态数据;对于非linux或windows服务器系统,监测组件可以通过专用协议传输监测的状态数据,并对外提供标准化api接口。
综上,本发明提出的集群成员节点可用性监测设备及方法能提高集群信息系统节点状态监控准确率、监控粒度、监控实时性,克服传统人工操作模式存在的粒度粗、实时性差、能力单一、扩展性差等不足。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
1.一种集群成员节点可用性监测设备,其特征在于,所述可用性监测设备包括与集群使用的网络互联设备相连的节点状态监测模块、监测管理模块、故障比对模块和状态信息通知模块;
所述节点状态监测模块,用于监测与网络互联设备相连的集群信息系统内部主机节点的状态,实现节点状态监测,并通过网络互联设备传送给监测管理模块;
所述故障比对模块,用于根据主机节点状态数据判定主机节点是否出现故障事件,并将故障事件传送给监测管理模块;
所述监测管理模块,用于对其所连接的节点状态监测模块获取到的主机节点状态数据进行数据汇聚,并进行保存记录;还用于将故障事件发送给状态信息通知模块;
所述状态信息通知模块,用于实现故障事件的提示或输出。
2.根据权利要求1所述的集群成员节点可用性监测设备,其特征在于,所述节点状态监测为监测主机节点的运行状态,所述运行状态包括硬件状态、网络状态、存储状态、应用状态;具体包括:
1)监测主机节点cpu使用率、gpu使用率、内存使用率、温度、风扇转速;
2)监测主机节点网络连接的状态、传输速率;
3)监测主机节点存储系统的容量;
4)监测任务应用运行过程的数据及其运行状态。
3.根据权利要求2所述的集群成员节点可用性监测设备,其特征在于,所述根据主机节点状态数据判定主机节点是否出现故障事件,并将故障事件传送给监测管理模块,具体过程包括:
故障比对模块从监测管理模块获取最新的一组状态数据,并将各状态数据项与对应的故障模式进行匹配;
若匹配度均小于对应的预设阈值,则表示未出现故障事件,返回上一步,继续比较最新的状态数据;否则表示出现故障事件,根据匹配的故障模式,生成每个故障事件对应的故障异常信息,并将故障事件传送给监测管理模块,之后返回上一步,继续比较最新的状态数据。
4.根据权利要求3所述的集群成员节点可用性监测设备,其特征在于,所述数据汇聚为格式整理和条目精简,具体包括:
1)将硬件状态、网络状态、存储状态、应用状态数据转换为相同的格式,并合并关联的状态数据;
2)删除一段时间内的重复状态数据;
3)建立数据项的依赖关系。
5.根据权利要求4所述的集群成员节点可用性监测设备,其特征在于,所述保存记录具体包括:
1)缓存节点状态监测模块传送过来的主机节点状态数据;
2)为主机节点状态数据附加上时间戳;
3)将主机节点状态数据写入日志文件或数据库。
6.根据权利要求5所述的集群成员节点可用性监测设备,其特征在于,所述实现故障事件的提示或输出,具体包括:
根据故障事件的类型,状态信息通知模块通过不同的组合指示灯表示该故障事件;
根据故障事件的类型,状态信息通知模块通过不同的网络接口对外发送该故障事件。
7.基于权利要求1至6任意一项所述设备的集群成员节点可用性监测方法,其特征在于,所述方法包括以下步骤:
步骤1,将节点状态监测模块、监测管理模块、故障比对模块以及状态信息通知模块与集群使用的网络互联设备连接;
步骤2,节点状态监测模块监测集群信息系统内部主机节点的状态,实现节点状态监测,并通过网络互联设备传送给监测管理模块;
步骤3,监测管理模块对所连接的节点状态监测模块获取到的状态数据进行数据汇聚,并进行保存记录;
步骤4,故障比对模块根据主机节点状态数据判定主机节点是否出现故障事件,若出现故障事件,将该故障事件传送给监测管理模块;
步骤5,监测管理模块将故障事件发送给状态信息通知模块,状态信息通知模块通过接口实现故障异常事件的提示或输出。
技术总结