一种交互型服务器智能故障处理系统、方法与流程

    专利2022-07-08  99


    本发明涉及服务器智能管理技术领域,具体涉及一种交互型服务器智能故障处理系统、方法。



    背景技术:

    随着服务器行业及相关技术的不断发展,其功能不断丰富,设计越来越复杂,集成度越来越高,这在增加设计难度的同时也增加了服务器出现故障的可能性,因此在研发测试阶段,研发人员debug的任务越来越重,需要大量的人力来处理故障问题并对设计进行优化,与此相对应的,服务器研发人员的分工越来越细,包括硬件、软件、部件、散热、电源等,针对某一个bug可能需要多个岗位的工程师进行分析才能确定故障来源是哪一部分,在这个过程中浪费了很多不必要的人力。

    目前在研发测试阶段我们进行服务器故障诊断主要有以下三种途径:(1)当bmcweb上出现告警时,如果明确是硬件方面的故障,比如上电异常,链路异常等可以针对这些报错采取相应的接触式测量,获取信号质量及状态信息,以具体排查硬件方面的错误。(2)当bmcweb上出现告警且指向cpu、内存等部件时,首先保留故障现象抓取相关故障日志进行分析,然后可以再进行交叉验证排除固件单体问题。(3)开机过程中出现宕机等故障,首先抓取故障日志,然后排查是否是软件故障,需要简单的通过刷新bios、bmc等的固件版本来验证问题是否复现。上述操作均需测试人员保留故障现场,研发人员针对异常现象进行初步分析后再利用该系统进行故障处理。

    存在的缺点如下:1.故障诊断的操作首先需要保留故障现象,而现在由于测试人员测试日程安排等原因可能无法原样保留,且有些现象为低概率事件,一旦破坏现象会给后续debug造成极大困难,很可能出现没有故障相关数据且无法复现的情况。2.有些故障分析的操作较为简单,但需要花费很长时间,比如抓取故障日志,刷新固件版本等等,这些操作都属于在复现故障现象后首先需要做的前期分析工作,得到这些前期数据后才可以进行进一步的分析。3.在抓取故障日志时还涉及抓取方式,如果使用xdp进行抓取则需要打开机箱插入xdp连接器,这在很多机箱结构中因为连接器上方往往有网卡等部件,空间较小,不容易插入连接器,如果拆下这些部件又会破坏本来的现象;如果使用dci功能,则需要提前在bios中打开dci功能,而发生宕机时不能保证该功能是打开的。4.在硬件信号测试时,当信号质量不理想时,如果信号是有cpld发出的,首先会考虑cpld的相关gpio接口的驱动能力是否过高或过低,如果信号质量仍然不好,就需要更改串阻大小。但更新驱动能力需要cpld工程师更改cpld代码,一个信号的debug可能需要尝试多种驱动能力,每次尝试都需要发布新的cpld版本,这就造成了debug效率较低。



    技术实现要素:

    针对上述存在的故障处理过程造成了debug效率较低的问题,本发明提供一种交互型服务器智能故障处理系统、方法。

    本发明的技术方案是:

    第一方面,本发明技术方案提供一种交互型服务器智能故障处理系统,包括智能故障处理板卡和主板;智能故障处理板卡通过金手指与主板进行通信连接;

    主板上设置有bmc,bmc包括adc监控模块,用于监控主板的上电状态并将监控状态传递给智能故障处理板卡;主板上电后进行功能测试,并将测试过程出现的告警信息传递给智能故障处理板卡;

    智能故障处理板卡,用于将接收到的上电状态信息进行分析处理,进行故障定位并发送指令到主板进行bmc日志的收集。

    优选地,智能故障处理板卡设置有网口,主板上设置有io接口;io接口包括vga接口、usb接口和rj45网口;

    智能故障处理板卡的网口与主板的rj45网口相连,组成局域网互相通信。

    优选地,智能故障处理板卡上设置有cpu、bmc、fpga、硬盘和内存;智能故障处理板卡还包括系统调试模块;

    主板的bmc出现故障报错或宕机后,将故障信息传递给智能故障处理板卡;系统调试模块,用于执行命令,通过金手指传递给主板抓取故障日志;智能故障处理板卡,用于对故障信息进行判断,若是软件故障,在保存故障日志后由智能故障处理板卡抓取之前保存在内存中的bmc或bios固件版本,通过网口给主板的bmc或bios进行固件版本刷新。

    优选地,主板上还设置有cpld、cpu、vr芯片和pch芯片。

    优选地,智能故障处理板卡还包括编程烧录模块;编程烧录模块,用于进行hw测试时现场调整cpld的gpio接口驱动能力。

    优选地,智能故障处理板卡,还用于给主板分配ip。

    优选地,bmc的adc监控模块,用于监控主板的上电状态并将监控状态传递给智能故障处理板卡的fpga;fpga,用于将监控的状态信息进行处理,若单个电无法起电或未达到规定电平要求,输出主板的该电的vr芯片检测的提示信息,否则,将接收到的监控的状态信息与预存储的正常上电时序进行对比,若存在时序异常的问题,输出对cpld代码进行修改的提示信息。

    第二方面,本发明技术方案还提供一种交互型服务器智能故障处理方法,应用于智能故障处理系统,所述的智能故障处理系统为第一方面所述的交互型服务器智能故障处理系统;该方法包括如下步骤:

    主板上电;

    主板bmc的adc监控模块监控主板的上电状态;

    根据上电状态判断是否上电异常;

    若是,智能故障处理板卡判断是否因为单个电无法起电或未达到规定电平要求,若是,输出主板该电的vr芯片进行检测的提示信息;若否,将监控的上电状态与与存储的正常上电时序进行对比,若存在时序异常,则输出对cpld代码进行修改的提示信息;

    若否,进行主板测试。

    优选地,进行主板测试的步骤还包括:

    进行主板测试的过程中,若出现告警时,将告警信息传递给智能故障处理板卡;

    智能故障处理板卡根据接收到的告警信息控制主板停止当前进程;

    智能故障处理板卡打指令抓取bmc日志并利用系统调试模块抓取故障日志,日志收集完成后发送指令控制继续进行主板测试。

    优选地,进行主板测试的步骤还包括:

    进行主板测试的过程中,若出现宕机故障时,智能故障处理板卡收集bmc告警信息;

    智能故障处理板卡根据收集的告警信息判断是软件或硬件bug;

    若是硬件故障,发出硬件故障告警信息;

    若是软件故障,智能故障处理板卡抓取当前bios配置信息;

    将抓取到的当前bios配置信息与预存储的原始bios版本进行比对并输出异同点;同时抓取预存储的bmc固件版本;

    通过网口给主板刷新bios或bmc固件版本;

    智能故障处理板卡记录bug类型,刷新完成后继续运行主板测试。

    从以上技术方案可以看出,本发明具有以下优点:针对故障问题能够进行初步定位和debug的交互型自动分析系统,实现定位故障原因,替代人力进行初步debug等操作,对bug进行初步分类,解决简单bug并记录解决方法,节约研发测试的人力。该系统能够帮助测试人员将各个bug所属领域进行分类,解决bug定位不准确造成的人力浪费,效率低下的问题。及时抓取故障日志,保证故障记录的准确性,解决了缺少故障日志的低概率bug分析定位困难的问题。进行初步debug和故障复现的操作,解决简单bug,节约研发人力。

    此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。

    由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。

    附图说明

    为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

    图1是本发明一个实施例的系统的示意性框图。

    图2是本发明一个实施例的方法的示意性流程图。

    具体实施方式

    为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

    如图1所示,本发明实施例提供一种交互型服务器智能故障处理系统,包括智能故障处理板卡和主板;智能故障处理板卡通过金手指与主板进行通信连接;

    主板上设置有bmc,bmc包括adc监控模块,用于监控主板的上电状态并将监控状态传递给智能故障处理板卡;主板上电后进行功能测试,并将测试过程出现的告警信息传递给智能故障处理板卡;

    智能故障处理板卡,用于将接收到的上电状态信息进行分析处理,进行故障定位并发送指令到主板进行bmc日志的收集。

    在有些实施例中,智能故障处理板卡设置有网口,主板上设置有io接口;io接口包括vga接口、usb接口和rj45网口;

    智能故障处理板卡的网口与主板的rj45网口相连,组成局域网互相通信。

    在有些实施例中,主板上还设置有cpld、cpu、vr芯片和pch芯片;智能故障处理板卡上设置有cpu、bmc、fpga、硬盘和内存;智能故障处理板卡还包括系统调试模块;

    主板的bmc出现故障报错或宕机后,将故障信息传递给智能故障处理板卡;系统调试模块,用于执行命令,通过金手指传递给主板抓取故障日志;智能故障处理板卡,用于对故障信息进行判断,若是软件故障,在保存故障日志后由智能故障处理板卡抓取之前保存在内存中的bmc或bios固件版本,通过网口给主板的bmc或bios进行固件版本刷新。

    需要说明的是,智能故障处理板卡上设置有金手指,对应的主板上设置有金手指插槽,实现智能故障处理板卡通过金手指与主板进行通信连接。

    在有些实施例中,智能故障处理板卡还包括编程烧录模块;编程烧录模块,用于进行hw测试时现场调整cpld的gpio接口驱动能力。

    在有些实施例中,主板开机前确保智能故障处理板卡已完成上电并开机。将智能故障处理板卡的网口与主板的rj45网口连接形成局域网,智能故障处理板卡,还用于给主板分配ip。

    在有些实施例中,bmc的adc监控模块,用于监控主板的上电状态并将监控状态传递给智能故障处理板卡的fpga;fpga,用于将监控的状态信息进行处理,若单个电无法起电或未达到规定电平要求,输出主板的该电的vr芯片检测的提示信息,否则,将接收到的监控的状态信息与预存储的正常上电时序进行对比,若存在时序异常的问题,输出对cpld代码进行修改的提示信息。

    本发明系统中,智能故障处理板卡通过金手指(goldfinger)与主板通信,智能故障处理板卡包含cpu、bmc、fpga、m.2硬盘和内存,主板的io接口包括vga、usb和rj45网口,其中该智能故障处理板卡的网口与主板的rj45网口相连,组成小型局域网可以互相通信,智能故障处理板卡系统安装系统调试模块、编程烧录模块,并且将当前主板烧录的bmc、bios、cpld的固件信息和版本提前录入存储,可以较全面的将研发阶段服务器出现的bug进行定位分析、故障日志抓取,并针对故障进行初步的debug。具体涉及的故障及操作执行路线分以下几个方面:1、主板上电相关故障,通过主板bmc的adc功能监控各个电的上电情况,并通过i2c及时传递给智能故障处理板卡进行分析。2、主板bmc出现故障报错或宕机后,传递给智能故障处理板卡,由智能故障处理板卡的系统调试模块执行命令,通过金手指传递给主板抓取故障日志。3、针对宕机故障,如果是软件故障,在保存故障日志后由故障处理系统抓取之前保存在内存中的bmc或bios固件版本,通过网口给主板的bmc或bios进行固件版本刷新。4、进行hw测试时可以使用智能故障处理板卡中的编程工具现场调整cpld的gpio接口驱动能力。

    如图2所示,本发明实施例还提供一种交互型服务器智能故障处理方法,应用于智能故障处理系统,所述的智能故障处理系统为上述实施例所述的交互型服务器智能故障处理系统;该方法包括如下步骤:

    s1:主板上电;

    s2:主板bmc的adc监控模块监控主板的上电状态;

    s3:根据上电状态判断是否上电异常;若是,执行步骤s4,若否,执行步骤s5;

    s4:智能故障处理板卡判断是否因为单个电无法起电或未达到规定电平要求,若是,输出主板该电的vr芯片进行检测的提示信息;若否,将监控的上电状态与预存储的正常上电时序进行对比,若存在时序异常,则输出对cpld代码进行修改的提示信息;

    s5:进行主板测试。

    在有些实施例中,步骤s5中,进行主板测试的步骤还包括:

    s5-11:进行主板测试的过程中,若出现告警时,将告警信息传递给智能故障处理板卡;

    s5-12:智能故障处理板卡根据接收到的告警信息控制主板停止当前进程;

    s5-13:智能故障处理板卡打指令抓取bmc日志并利用系统调试模块抓取故障日志,日志收集完成后发送指令控制继续进行主板测试。

    在有些实施例中,步骤s5中,进行主板测试的步骤还包括:

    s5-21:进行主板测试的过程中,若出现宕机故障时,智能故障处理板卡收集bmc告警信息;

    s5-22:智能故障处理板卡根据收集的告警信息判断是软件或硬件bug;

    若是硬件故障,执行步骤s5-23;若是软件故障,执行步骤s5-24;

    s5-23:发出硬件故障告警信息;

    s5-24:智能故障处理板卡抓取当前bios配置信息;

    s5-25:将抓取到的当前bios配置信息与预存储的原始bios版本进行比对并输出异同点;同时抓取预存储的bmc固件版本;

    s5-26:通过网口给主板刷新bios或bmc固件版本;

    s5-27:智能故障处理板卡记录bug类型,刷新完成后继续运行主板测试。

    主板开机前确保智能故障处理板卡已完成上电并开机。将智能故障处理板卡的网口与主板的网口连接形成局域网,由故障处理系统给主板分配ip。

    该智能故障处理板卡开机后控制主板的powerbutton信号开始上电。上电过程中由主板bmc的adc模块监测各电的上电情况和上电时间,并将信息传递给智能故障处理板卡的fpga,一旦发生无法正常上电的情况,将首先分辨是否因为单个电无法起电或未达到规定电平要求,如果是这种情况,就需要研发人员就主板该电的vr芯片进行研究;如果不是单个电的原因,则进一步分析上电时间,与之前录入的正常上电时序进行对比,如果存在时序异常的问题,则此类问题需要cpld工程师对cpld代码进行修改。

    主板正常上电后,将进行相关功能测试,当出现告警时,将告警信息传递给智能故障处理板卡,智能故障处理板卡发送指令控制主板停止运行当前进程,随后智能故障处理板卡运行systemdebugger工具,抓取发送“crashdump()”指令,并将收集到的故障日志自动保存,同时收集主板bmc的日志,并向用户发出收集完成的提醒。收集完成后系统发送指令“go”,主板继续运行相关测试。

    当出现宕机故障时,系统首先收集bmc告警信息,分析是软件或硬件bug,根据得出的结论,systemdebugger运行不同的指令抓取相关故障日志,完成后,如果是硬件bug,则发出告警,等待研发人员进行进一步处理,如果是软件bug,系统将抓取主板bios相关配置,再与之前提前录入系统的版本配置信息进行对比,输出异同点,随后通过网口给主板刷新bios或bmc的固件版本,故障处理系统记录bug类型,刷新完成后继续运行,如再次出现相同故障的宕机,则由系统发出告警,故障定位领域为固件,由固件研发人员进行处理。

    需要说明的是,在研发测试阶段,硬件需要对信号质量进行测试和debug,由于每个主板布线长度不同,信号质量也不同。针对由cpld发出的信号,如果存在过冲或回沟等问题,首先需要考虑调整cpld的gpio接口驱动能力,可以由cpld工程师在智能故障处理板卡上现场修改,然后将cpld烧录器接在主板cpldjtag接口上,烧录器的usb端接在智能故障处理板卡的usb接口上,直接进行烧录,可以实现现场调整和多次修改,节省测试和debug时间。

    尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。


    技术特征:

    1.一种交互型服务器智能故障处理系统,其特征在于,包括智能故障处理板卡和主板;智能故障处理板卡通过金手指与主板进行通信连接;

    主板上设置有bmc,bmc包括adc监控模块,用于监控主板的上电状态并将监控状态传递给智能故障处理板卡;主板上电后进行功能测试,并将测试过程出现的告警信息传递给智能故障处理板卡;

    智能故障处理板卡,用于将接收到的上电状态信息进行分析处理,进行故障定位并发送指令到主板进行bmc日志的收集。

    2.根据权利要求1所述的交互型服务器智能故障处理系统,其特征在于,智能故障处理板卡设置有网口,主板上设置有io接口;io接口包括vga接口、usb接口和rj45网口;

    智能故障处理板卡的网口与主板的rj45网口相连,组成局域网互相通信。

    3.根据权利要求2所述的交互型服务器智能故障处理系统,其特征在于,智能故障处理板卡上设置有cpu、bmc、fpga、硬盘和内存;智能故障处理板卡还包括系统调试模块;

    主板的bmc出现故障报错或宕机后,将故障信息传递给智能故障处理板卡;系统调试模块,用于执行命令,通过金手指传递给主板抓取故障日志;智能故障处理板卡,用于对故障信息进行判断,若是软件故障,在保存故障日志后由智能故障处理板卡抓取之前保存在内存中的bmc或bios固件版本,通过网口给主板的bmc或bios进行固件版本刷新。

    4.根据权利要求3所述的交互型服务器智能故障处理系统,其特征在于,主板上还设置有cpld、cpu、vr芯片和pch芯片。

    5.根据权利要求4所述的交互型服务器智能故障处理系统,其特征在于,智能故障处理板卡还包括编程烧录模块;编程烧录模块,用于进行hw测试时现场调整cpld的gpio接口驱动能力。

    6.根据权利要求5所述的交互型服务器智能故障处理系统,其特征在于,智能故障处理板卡,还用于给主板分配ip。

    7.根据权利要求6所述的交互型服务器智能故障处理系统,其特征在于,bmc的adc监控模块,用于监控主板的上电状态并将监控状态传递给智能故障处理板卡的fpga;fpga,用于将监控的状态信息进行处理,若单个电无法起电或未达到规定电平要求,输出主板的该电的vr芯片检测的提示信息,否则,将接收到的监控的状态信息与预存储的正常上电时序进行对比,若存在时序异常的问题,输出对cpld代码进行修改的提示信息。

    8.一种交互型服务器智能故障处理方法,其特征在于,应用于智能故障处理系统,所述的智能故障处理系统为权利要求1-8任一项所述的交互型服务器智能故障处理系统;该方法包括如下步骤:

    主板上电;

    主板bmc的adc监控模块监控主板的上电状态;

    根据上电状态判断是否上电异常;

    若是,智能故障处理板卡判断是否因为单个电无法起电或未达到规定电平要求,若是,输出主板该电的vr芯片进行检测的提示信息;若否,将监控的上电状态与与存储的正常上电时序进行对比,若存在时序异常,则输出对cpld代码进行修改的提示信息;

    若否,进行主板测试。

    9.根据权利要求8所述的交互型服务器智能故障处理方法,其特征在于,进行主板测试的步骤还包括:

    进行主板测试的过程中,若出现告警时,将告警信息传递给智能故障处理板卡;

    智能故障处理板卡根据接收到的告警信息控制主板停止当前进程;

    智能故障处理板卡打指令抓取bmc日志并利用系统调试模块抓取故障日志,日志收集完成后发送指令控制继续进行主板测试。

    10.根据权利要求9所述的交互型服务器智能故障处理方法,其特征在于,进行主板测试的步骤还包括:

    进行主板测试的过程中,若出现宕机故障时,智能故障处理板卡收集bmc告警信息;

    智能故障处理板卡根据收集的告警信息判断是软件或硬件bug;

    若是硬件故障,发出硬件故障告警信息;

    若是软件故障,智能故障处理板卡抓取当前bios配置信息;

    将抓取到的当前bios配置信息与预存储的原始bios版本进行比对并输出异同点;同时抓取预存储的bmc固件版本;

    通过网口给主板刷新bios或bmc固件版本;

    智能故障处理板卡记录bug类型,刷新完成后继续运行主板测试。

    技术总结
    本发明提供一种交互型服务器智能故障处理系统、方法,所述系统包括智能故障处理板卡和主板;智能故障处理板卡通过金手指与主板进行通信连接;主板上设置有BMC,BMC包括ADC监控模块,用于监控主板的上电状态并将监控状态传递给智能故障处理板卡;主板上电后进行功能测试,并将测试过程出现的告警信息传递给智能故障处理板卡;智能故障处理板卡,用于将接收到的上电状态信息进行分析处理,进行故障定位并发送指令到主板进行BMC日志的收集。该系统能够帮助测试人员将各个bug所属领域进行分类,解决bug定位不准确造成的人力浪费,效率低下的问题。

    技术研发人员:赵子腾
    受保护的技术使用者:苏州浪潮智能科技有限公司
    技术研发日:2020.10.28
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-22775.html

    最新回复(0)