本发明实施例涉及云计算领域,特别涉及云资源的智能监控方法、系统、服务器、以及存储介质。
背景技术:
随着信息技术的发展,云计算逐渐成为业界的发展热点,国内外各大厂商的云计算服务平台也纷纷投入到电子商务、教育、科学、物联网等多个领域进行使用。然而,由于云计算缺乏统一的设计标准,不同厂家开发的虚拟化产品大相径庭,很难统一管理、监控起来。在云服务平台中,高效的资源监控不仅是必须的,而且还会对企业的整个经营活动产生巨大影响。云资源监控是提高云资源利用率的基石,对于容量和资源管理、性能管理等也具有重要的意义。目前,对云资源进行监控的方式包括:对云主机、云硬盘、云存储等云资源进行监控、另一种是对云业务进行监控。
发明人发现,相关技术中至少存在如下问题:
监控策略比较传统、简单,仅仅实现采集的数据与设置的告警阈值进行比较,这样非常简单的方式实现监控,很难达到智能的监控目的。
技术实现要素:
本发明实施方式的目的在于提供一种云资源的智能监控方法、系统、服务器、以及存储介质,可以有效的提高监控数据的智能化程度。
为解决上述技术问题,本发明的实施方式提供了一种云资源的智能监控方法,包括:
检测云资源的至少一项性能指标;
对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;
将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;
如果大于,则产生报警信息,并上报。
另外,本发明还提供一种云资源的智能监控系统,包括:
云资源检测模块,用于检测云资源的至少一项性能指标;
健康度管理模块,用于对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;
智能监控模块,用于将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;
告警上报中心,用于如果所述当前健康度值大于所述当前业务类别所对应的报警阈值时,则产生报警,并上报。
另外,本发明还提供一种服务器,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的方法。
另外,本发明还提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述的方法。
上述方案中,检测云资源的至少一项性能指标;对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;如果大于,则产生报警信息,并上报。考虑了整个云计算环境下各项资源的健康度,并对使用云资源的业务运行状态进行动态评估、预测,及时上报告警信息,从而可以提高可以有效的提高监控数据的智能化程度。
所述打分器模型根据以下方式进行训练:将制作的分类器数据集和打分器数据集分别分为训练集和验证集;并使用分类器训练集对分类器模型进行训练;
使用分类器验证集对训练后的分类器模型进行验证;如果分类器模型的预选结果正确率大于设置的训练阈值,则分类器模型训练完成,否则继续训练;最终得到训练完成的分类器模型。上述方案中,基于深度学习算法的智能云资源告警策略,提高了智能监控的准确性。
所述对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值的步骤具体为:
其中,ucpu表示cpu利用率;umem表示内存利用率;udisk表示磁盘i/o利用率;α表示cpu利用率的重要程度,β表示内存利用率的重要程度,λ表示磁盘i/o利用率的重要程度;r表示当前健康度值。上述方案中,根据对业务的影响程度,将云资源各项指标进行加权,构建云资源健康度模型,可以基于业务需求灵活配置监控策略。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本发明实施例所述的云资源的智能监控方法的流程示意图;
图2为本发明实施例所述的云资源的智能监控系统的结构示意图;
图3本发明应用场景所述的云资源智能监控的整体结构示意图。
图4为本发明应用场景所述的云资源的智能监控方法的流程示意图;
图5为本发明所述的服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
如图1所示,为本发明实施例所述的一种云资源的智能监控方法,包括:
步骤11,检测云资源的至少一项性能指标;
步骤12,对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;
步骤13,将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;
步骤14,如果大于,则产生报警信息,并上报。如果小于,则不进行报警处理。
上述方案中,考虑了整个云计算环境下各项资源的健康度,并对使用云资源的业务运行状态进行动态评估、预测,及时上报告警信息,从而可以提高可以有效的提高监控数据的智能化程度。另外,本发明能够自动预警,并将对应的告警信息发送给相应的运维人员,可以提高运维人员的工作效率,降低业务出问题的频率。
期中,所述对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值的步骤具体为:
其中,ucpu表示cpu利用率;umem表示内存利用率;udisk表示磁盘i/o利用率;α表示cpu利用率的重要程度,β表示内存利用率的重要程度,λ表示磁盘i/o利用率的重要程度;r表示当前健康度值。上述方案中,根据对业务的影响程度,将云资源各项指标进行加权,构建云资源健康度模型,可以基于业务需求灵活配置监控策略。
另外,所述的云资源的智能监控方法,还包括:
步骤15,记录产生报警信息时的至少一项性能指标,以作为所述分类器模型和所述分类器模型的数据集,供其进行训练学习。该步骤中,基于深度学习进行云资源智能监控,通过学习以往的监控数据集,可以有效的提高监控数据的准确性。
所述打分器模型根据以下方式进行训练:
将制作的分类器数据集和打分器数据集分别分为训练集和验证集;并使用分类器训练集对分类器模型进行训练;
使用分类器验证集对训练后的分类器模型进行验证;
如果分类器模型的预选结果正确率大于设置的训练阈值,则分类器模型训练完成,否则继续训练;
最终得到训练完成的分类器模型。
所述打分器模型训练的具体方式为:
以朴素贝叶斯模型作为分类器模型进行描述,分类模型样本是:
朴素贝叶斯的先验分布p(y=ck)(k=1,2,...,k),条件概率分布p(x1=x1,x2=x2,...,xn=xn|y=ck),用贝叶斯公式得到p(x,y):p(x,y=ck)=p(y=ck)p(x1=x1,x2=x2,...xn=xn)
给定测试集一个新样本特征
cresult=argmaxp(y=ck|x=x(test))
........=argmaxp(x=x(test)|y=ck)p(y=ck)/p(x=x(test))
朴素贝叶斯推断公式为:
其中,云主机cpu利用率、内存利用率、磁盘利用率为该模型中的特征x,ck表示预测的输出类别标签。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
另外,如图2所述,本发明还提供一种云资源的智能监控系统,包括:
云资源检测模块,用于检测云资源的至少一项性能指标;
健康度管理模块,用于对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;
智能监控模块,用于将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;
告警上报中心,用于如果所述当前健康度值大于所述当前业务类别所对应的报警阈值时,则产生报警,并上报。
可选的所述的系统,还包括:
告警存储模块,记录产生报警信息时的至少一项性能指标,以作为所述分类器模型和所述分类器模型的数据集,供其进行训练学习。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
以下描述本发明的应用场景。
图3显示了云资源智能监控的整体结构,主要包括:数据采集模块、数据清洗模块、智能监控模块、健康度管理模块、告警存储模块、告警上报中心模块,图中各功能模块具体说明如下:
数据采集模块:负责采样云资源利用率信息和历史告警信息,云资源利用率信息包括:cpu利用率、内存利用率和磁盘i/o利用率;历史告警信息为触发告警的云资源健康度信息;
数据清洗模块:负责对采样数据进行清洗并规范化处理。
其中,云资源监测模块包括了上述的数据采集模块和数据清洗模块。
健康度管理模块:对云资源的cpu利用率、内存利用率和磁盘i/o利用率等各项性能指标建模进行量化处理,并结合预先设置的各项指标对不同业务的重要程度进行加权处理,最终计算出各项指标的综合健康度值。
该云资源健康度模型计算云资源综合健康度(r)的数学表达式如下:
其中,ucpu表示cpu利用率、umem表示内存利用率、udisk表示磁盘i/o利用率;α表示cpu利用率的重要程度,β表示内存利用率的重要程度,λ表示磁盘i/o利用率的重要程度。
智能监控模块:由基于神经网络模型构建的分类器模型和打分器模型组成;将制作的分类器数据集和打分器数据集分别分为训练集和验证集,并使用分类器训练集对分类器模型进行训练;然后,使用分类器验证集对训练后的分类器模型进行验证;如果分类器模型的预选结果正确率大于设置的阈值,则分类器模型训练完成,否则继续训练;打分器模型也使用打分器训练集和验证集执行相同的训练方法,最终得到训练完成的分类器模型和打分器模型;
本发明以朴素贝叶斯模型作为分类器模型进行描述,分类模型样本是:
分析上面的式子,
cresult=argmaxp(x=x(test)|y=ck)p(y=ck)
接着利用朴素贝叶斯的独立性假设,就可以得到通常意义上的朴素贝叶斯推断公式:
其中,可以将云主机cpu利用率、内存利用率、磁盘利用率等维度作为该模型中的特征x,ck表示预测的输出类别标签(这里可以看作对云资源划分的类别);
将经过朴素贝叶斯分类后的云资源监测数据,输入云资源综合健康度模型计算出对应的健康度r,然后将该数据集输入到训练完成的打分器模型,预选出云资源综合健康度低于预先设置的告警阈值的监测数据,存储到告警存储模块中,并上报到告警上报中心;
告警存储模块:负责记录产生的历史告警信息,并作为智能监控模块的数据集,供其进行训练学习,提高模型精确性和预警能力;
告警上报中心模块:将产生的告警信息报送给管理员或者运维人员,这样能够及时发现、处理告警信息,减少对业务造成的影响。
本发明所述的云资源智能监控流程如图4所示,下面将进行详细说明:
首先,云资源检测模块检测云资源的cpu利用率、内存利用率和磁盘i/o利用率等各项性能指标,并传送给云资源的健康度管理模块;云资源检测模块可以包括:数据采集模块和数据清洗模块。
然后,健康度管理模块根据预先设置的各项指标的重要程度进行加权构建的健康度模型,计算出云资源当前的综合健康度值,并传给智能监控模块;
然后,智能监控模块对接收到的当前云资源健康度值进行评估,如果低于预先设置的告警阈值,则将告警信息存储到告警记录中,并上报到告警上报中心;否则,将之前的告警信息移至历史告警记录中;
然后,告警存储模块记录产生的历史告警信息,并作为智能告警模块的数据集,供其进行训练学习,提高模型精确性和预警能力;
然后,告警上报中心将产生的告警信息报送给管理员或者运维人员,这样能够及时处理告警信息。
本发明具有以下有益效果:
1)本发明基于云资源重要程度设计健康度模型,将云资源cpu利用率、内存利用率和磁盘i/o利用率等各项性能指标与用户关注度或影响业务正常运行的重要程度进行加权,而设计了云资源健康度模型,解决了传统监控指标单一、各项云资源性能指标间关联性差的问题,
2)本发明基于深度学习算法的智能云资源告警策略,解决了传统云资源监控准确度、灵活性差、维护成本高的问题,能够预测云资源健康状态并快速及时的上报给运维和管理人员,使得运维人员可以快速的通过相关告警通知实现告警处理。
3)本发明根据对业务的影响程度,将云资源各项指标进行加权,构建云资源健康度模型,可以基于业务需求灵活配置监控策略。
4)本发明结合深度学习这种新型算法,能够充分考虑整个云计算环境下各项资源的健康度,并对使用云资源的业务运行状态进行动态评估、预测,及时上报告警信息,同时也为云资源优化、调度提供一种有效的策略。可以减少维护成本,大大提高了开发运维人员的工作效率。
另外,如图5所示,本发明实施例还提供一种服务器,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明还涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
1.一种云资源的智能监控方法,其特征在于,包括:
检测云资源的至少一项性能指标;
对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;
将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;
如果大于,则产生报警信息,并上报。
2.根据权利要求1所述的方法,其特征在于,还包括:
记录产生报警信息时的至少一项性能指标,以作为所述分类器模型和所述分类器模型的数据集,供其进行训练学习。
3.根据权利要求1所述的方法,其特征在于,所述对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值的步骤具体为:
其中,ucpu表示cpu利用率;umem表示内存利用率;udisk表示磁盘i/o利用率;α表示cpu利用率的重要程度,β表示内存利用率的重要程度,λ表示磁盘i/o利用率的重要程度;r表示当前健康度值。
4.根据权利要求1所述的方法,其特征在于,所述打分器模型根据以下方式进行训练:
将制作的分类器数据集和打分器数据集分别分为训练集和验证集;并使用分类器训练集对分类器模型进行训练;
使用分类器验证集对训练后的分类器模型进行验证;
如果分类器模型的预选结果正确率大于设置的训练阈值,则分类器模型训练完成,否则继续训练;
最终得到训练完成的分类器模型。
5.根据权利要求4所述的方法,其特征在于,所述打分器模型训练的具体方式为:
以朴素贝叶斯模型作为分类器模型进行描述,分类模型样本是:
朴素贝叶斯的先验分布p(y=ck)(k=1,2,...,k),条件概率分布p(x1=x1,x2=x2,...,xn=xn|y=ck),用贝叶斯公式得到p(x,y):p(x,y=ck)=p(y=ck)p(x1=x1,x2=x2,...xn=xn)
给定测试集一个新样本特征
朴素贝叶斯推断公式为:
其中,云主机cpu利用率、内存利用率、磁盘利用率为该模型中的特征x,ck表示预测的输出类别标签。
6.一种云资源的智能监控系统,其特征在于,包括:
云资源检测模块,用于检测云资源的至少一项性能指标;
健康度管理模块,用于对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;
智能监控模块,用于将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;
告警上报中心,用于如果所述当前健康度值大于所述当前业务类别所对应的报警阈值时,则产生报警,并上报。
7.根据权利要求6所述的系统,其特征在于,所述打分器模型根据以下方式进行训练:
将制作的分类器数据集和打分器数据集分别分为训练集和验证集;并使用分类器训练集对分类器模型进行训练;
使用分类器验证集对训练后的分类器模型进行验证;
如果分类器模型的预选结果正确率大于设置的训练阈值,则分类器模型训练完成,否则继续训练;
最终得到训练完成的分类器模型。
8.根据权利要求7所述的系统,其特征在于,所述打分器模型训练具体为:
以朴素贝叶斯模型作为分类器模型进行描述,分类模型样本是:
朴素贝叶斯的先验分布p(y=ck)(k=1,2,...,k),条件概率分布p(x1=x1,x2=x2,...,xn=xn|y=ck),用贝叶斯公式得到p(x,y):p(x,y=ck)=p(y=ck)p(x1=x1,x2=x2,...xn=xn)
给定测试集一个新样本特征
朴素贝叶斯推断公式为:
其中,云主机cpu利用率、内存利用率、磁盘利用率为该模型中的特征x,ck表示预测的输出类别标签。
9.一种服务器,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一所述的方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法。
技术总结