日志数据处理方法、装置、设备及存储介质与流程

    专利2025-06-23  4


    本技术涉及大数据,具体涉及一种日志数据处理方法、装置、设备及存储介质。


    背景技术:

    1、随着业务的快速增长,容器化改造的不断推进,日志平台系统日志的维护也变得越来越重要。在资源有限的情况下,需要有效的维护手段来保证日志数据搜索的高效和准确。面对海量的日志数据和搜索请求,运维人员很难凭借个人经验完成索引的拆分,不合理的拆分反而会导致搜索结果多次合并,影响搜索效率。

    2、相关技术中,通过收集搜索服务器(elasticsearch,es)集群中的索引信息;并基于索引信息,通过索引拆分算法,确定索引分配策略,从而实现对日志数据的索引拆分,来提高日志搜索效率。

    3、然而,相关技术的索引拆分方法无法满足日益增长的日志量和搜索需求,索引拆分的效率低。


    技术实现思路

    1、本技术提供一种日志数据处理方法、装置、设备及存储介质,从而解决相关技术的索引拆分方法无法满足日益增长的日志量和搜索需求,索引拆分的效率低的问题。

    2、第一方面,本技术提供一种日志数据处理方法,包括:

    3、获取待处理的日志数据;

    4、根据预训练的搜索次数预测模型,预测所述日志数据的被查询次数,以得到被查询次数预测值,其中,所述搜索次数预测模型由日志数据训练样本和日志数据训练样本对应的历史搜索请求数据训练得到;

    5、根据所述被查询次数预测值,对所述日志数据进行聚类处理,以得到所述日志数据的至少一个索引分类。

    6、本技术提供了一种准确、高效的针对日志数据的索引分类方法,基于预训练的搜索次数预测模型来预测待处理的日志数据的被查询次数,通过聚类算法结合预测出来的被查询次数预测值,能够对日志数据进行聚类分析,形成日志数据的至少一个索引分类,由于在聚类处理时的日志数据的被查询次数是通过机器学习回归算法预测得到,该模型的训练过程结合了历史数据,相比较于离散的被查询次数数据,被查询次数预测值具有更好的拟合效果和时间延展性,提高了聚类效率,能够更好地反映各日志数据的被查询次数特征,聚类处理能够快速结合日志数据的特征进行分类,能够满足大量日志的索引需求以及搜索需求,提高了索引拆分效率。

    7、可选地,所述根据所述被查询次数预测值,对所述日志数据进行聚类处理,以得到所述日志数据的至少一个索引分类,包括:

    8、对所述日志数据进行特征提取,以得到所述日志数据的至少一个日志特征;根据所述日志特征和所述被查询次数预测值,对所述日志数据进行聚类处理,以得到所述日志数据的至少一个索引分类。

    9、这里,本技术首先提取日志数据中的各个日志特征,例如日志路径、产生时间、所属主机名、匹配切词数等特征数据,根据日志特征和被查询次数预测值,对日志数据进行聚类处理,将日志数据综合时间、业务、频率、信息量多个维度进行分析,能够实现对日志数据的精准化分类,从而得到准确的索引分类,提高了索引拆分效率,且更加精准的索引,提高了日志搜索效率。

    10、可选地,所述根据所述日志特征和所述被查询次数预测值,对所述日志数据进行聚类处理,以得到至少一个索引分类,包括:

    11、采用基于密度的聚类算法,根据所述日志特征和所述被查询次数预测值,对所述日志数据进行聚类处理,以得到所述日志数据的至少一个索引分类。

    12、这里,本技术通过基于密度的聚类算法(density-based spatial clustering ofapplications with noise,dbscan)来实现对日志数据的聚类,由于样本数据量较大,且经过预测等预处理之后同类样本间距差不大,通过基于密度的dbscan算法,统计出每个类特征的聚合情况,根据聚合情况进行索引拆分,实现了对日志的冷热区分,提供了更加精准的索引,提高了日志搜索效率。

    13、可选地,所述获取待处理的日志数据,包括:

    14、获取全量日志数据;

    15、按照预设聚类处理比例,在所述全量日志数据中进行采样处理,以得到所述待处理的日志数据。

    16、其中,本技术首先获取全量日志数据,根据预设聚类处理比例,能够准确采样出一定数据量的待处理的日志数据,用于实现索引拆分,通过一定比例的采样处理,减少了运算的数据量,进一步地提高了索引拆分及日志处理效率。

    17、可选地,在所述根据预训练的搜索次数预测模型,预测所述日志数据的被查询次数,以得到被查询次数预测值之前,还包括:

    18、按照预设采样比例,在所述全量日志数据中进行采样处理,以得到日志数据训练样本;获取所述日志数据训练样本对应的历史搜索请求数据;在所述历史搜索请求数据中进行查询,以得到所述日志数据训练样本对应的历史搜索次数;根据所述日志数据训练样本和所述历史搜索次数对初始的搜索次数预测模型进行训练,以得到所述预训练的搜索次数预测模型。

    19、这里,本技术按照预设采样比例在全量日志数据中采样出日志数据训练样本,搜索次数预测模型的训练样本均来自与原始的日志数据,训练出的模型能够更好地反映出日志数据的特征,基于历史搜索次数对模型进行训练,训练出的模型能够准确预测日志数据的搜索次数趋势,在海量数据场景下,相比于现有技术使用的历史统计数据,使用预测数据在后续聚类算法中有着更好的拟合效果和时间延展性,且通过一定比例的采样处理,减少了运算的数据量,进一步地,模型训练与聚类处理采用不同的数据,能够实现对模型的校正及准确性的验证,进一步地提高了索引拆分及日志处理效率。

    20、可选地,其中所述搜索次数预测模型为随机森林算法模型。

    21、其中,本技术回归算法采用随机森林算法,随机森林是一种包含很多决策树的分类器,既可以用于处理分类和回归问题,也适用于降维问题,其对异常值与噪音也有很好的容忍,相较于决策树有着更好的预测和分类性能,因此能够对日志数据实现准确的索引拆分处理。

    22、可选地,其中所述历史搜索次数包括被监控告警搜索次数和被个性化搜索次数。

    23、这里,本技术根据日志搜索方式的不同将日志关键特征被搜索次数拆分成2个子特征,被告警监控搜索次数和被个性化搜索次数,使用拆分后的特征在后续聚类中可以获得更契合于搜索方式的聚合效果,再根据搜索方式的特性进行索引拆分的优化配置,进一步地提高了索引拆分效果,提高了日志处理效率。

    24、可选地,在所述根据所述被查询次数预测值,对所述日志数据进行聚类处理,以得到所述日志数据的至少一个索引分类之后,还包括:

    25、根据所述至少一个索引分类,对所述日志数据进行索引拆分;

    26、将拆分后的日志数据写入至对应的索引分类。

    27、其中,本技术在根据日志数据确定多个索引分类后,能够根据得到的索引分类,将日志数据写入至对应的索引分类中,实现对日志高效自动化的索引拆分,提高了日志搜索效率。

    28、可选地,其中所述被查询次数预测值包括被监控告警查询次数预测值和被个性化搜索次数预测值;

    29、相应地,所述将拆分后的日志数据写入至对应的索引分类之前,还包括:

    30、根据所述被监控告警查询次数预测值和所述被个性化搜索次数预测值,对各拆分后的日志数据进行时效性分类,以得到所述各拆分后的日志数据的时效属性;其中所述时效属性为高时效性日志数据或低时效日志数据;

    31、根据所述时效属性,设置所述各拆分后的日志数据的生命周期。

    32、其中,本技术能够根据被监控告警查询次数预测值和被个性化搜索次数预测值,确定日志数据的时效性,低生命周期索引配置个性化的生命周期,降低日志存活时间,提高了日志存储及管理的资源利用率,降低了搜索难度,提高了日志的搜索性能。

    33、可选地,在所述根据所述被监控告警查询次数预测值和所述被个性化搜索次数预测值,对所述各拆分后的日志数据进行时效性分类,以得到所述各拆分后的日志数据的时效属性之后,还包括:

    34、若确定所述日志数据时效属性为低时效日志数据,则将所述日志数据添加至等待队列;当所述等待队列中的数据量满足预设写入条件时,将所述日志数据和所述等待队列中的其它数据同时写入至对应的索引分类。

    35、这里,针对低时效性日志数据,可以配置配置批量延时写入,牺牲数据采集的时延,提升资源使用率。

    36、可选地,在所述根据所述索引分类,对所述日志数据进行索引拆分之前,还包括:

    37、根据所述被监控告警查询次数预测值和所述被个性化搜索次数预测值,判断所述日志数据是否为不常用日志数据;若判断所述日志数据为不常用日志数据,则将所述日志数据写入至不常用索引分类。

    38、这里,对于日常用不到的日志可以不记入索引;或拆分记入单独的索引,防止日常搜索对无效日志的空转查询,进一步地提高了对日志数据的索引拆分效率以及日志搜索效率。

    39、第二方面,本技术提供了一种日志数据处理装置,包括:

    40、获取模块,用于获取待处理的日志数据;

    41、第一处理模块,用于根据预训练的搜索次数预测模型,预测所述日志数据的被查询次数,以得到被查询次数预测值,其中,所述搜索次数预测模型由日志数据训练样本和日志数据训练样本对应的历史搜索请求数据训练得到;

    42、第二处理模块,用于根据所述被查询次数预测值,对所述日志数据进行聚类处理,以得到所述日志数据的至少一个索引分类。

    43、可选地,所述第二处理模块具体用于:

    44、对所述日志数据进行特征提取,以得到所述日志数据的至少一个日志特征;

    45、根据所述日志特征和所述被查询次数预测值,对所述日志数据进行聚类处理,以得到所述日志数据的至少一个索引分类。

    46、可选地,所述第二处理模块还具体用于:

    47、采用基于密度的聚类算法,根据所述日志特征和所述被查询次数预测值,对所述日志数据进行聚类处理,以得到所述日志数据的至少一个索引分类。

    48、可选地,所述获取模块具体用于:

    49、获取全量日志数据;

    50、按照预设聚类处理比例,在所述全量日志数据中进行采样处理,以得到所述待处理的日志数据。

    51、可选地,在所述第一处理模块用于根据预训练的搜索次数预测模型,预测所述日志数据的被查询次数,以得到被查询次数预测值之前,上述装置还包括模型训练模块,用于:

    52、按照预设采样比例,在所述全量日志数据中进行采样处理,以得到日志数据训练样本;获取所述日志数据训练样本对应的历史搜索请求数据;在所述历史搜索请求数据中进行查询,以得到所述日志数据训练样本对应的历史搜索次数;根据所述日志数据训练样本和所述历史搜索次数对初始的搜索次数预测模型进行训练,以得到所述预训练的搜索次数预测模型。

    53、可选地,其中所述搜索次数预测模型为随机森林算法模型。

    54、可选地,其中所述历史搜索次数包括被监控告警搜索次数和被个性化搜索次数。

    55、可选地,在所述第二处理模块用于根据所述被查询次数预测值,对所述日志数据进行聚类处理,以得到所述日志数据的至少一个索引分类之后,上述装置还包括第三处理模块,用于:

    56、根据所述至少一个索引分类,对所述日志数据进行索引拆分;将拆分后的日志数据写入至对应的索引分类。

    57、可选地,其中所述被查询次数预测值包括被监控告警查询次数预测值和被个性化搜索次数预测值;

    58、相应地,在所述第三处理模块用于将拆分后的日志数据写入至对应的索引分类之前,上述装置还包括第四处理模块,用于:

    59、根据所述被监控告警查询次数预测值和所述被个性化搜索次数预测值,对各拆分后的日志数据进行时效性分类,以得到所述各拆分后的日志数据的时效属性;其中所述时效属性为高时效性日志数据或低时效日志数据;根据所述时效属性,设置所述各拆分后的日志数据的生命周期。

    60、可选地,在所述第四处理模块用于根据所述被监控告警查询次数预测值和所述被个性化搜索次数预测值,对所述各拆分后的日志数据进行时效性分类,以得到所述各拆分后的日志数据的时效属性之后,上述装置还包括第五处理模块,用于:

    61、若确定所述日志数据时效属性为低时效日志数据,则将所述日志数据添加至等待队列;当所述等待队列中的数据量满足预设写入条件时,将所述日志数据和所述等待队列中的其它数据同时写入至对应的索引分类。

    62、可选地,在所述第三处理模块用于根据所述索引分类,对所述日志数据进行索引拆分之前,上述装置还包括第六处理模块,用于:

    63、根据所述被监控告警查询次数预测值和所述被个性化搜索次数预测值,判断所述日志数据是否为不常用日志数据;若判断所述日志数据为不常用日志数据,则将所述日志数据写入至不常用索引分类。

    64、第三方面,本技术提供一种日志数据处理设备,包括:至少一个处理器和存储器;

    65、所述存储器存储计算机执行指令;

    66、所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的日志数据处理方法。

    67、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的日志数据处理方法。

    68、第五方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上第一方面以及第一方面各种可能的设计所述的日志数据处理方法。

    69、本技术提供的日志数据处理方法、装置、设备及介质,其中该方法基于预训练的搜索次数预测模型来预测待处理的日志数据的被查询次数,通过聚类算法结合预测出来的被查询次数预测值,能够对日志数据进行聚类分析,形成日志数据的至少一个索引分类,由于在聚类处理时的日志数据的被查询次数是通过机器学习回归算法预测得到,该模型的训练过程结合了历史数据,相比较于离散的被查询次数数据,被查询次数预测值具有更好的拟合效果和时间延展性,提高了聚类效率,能够更好地反映各日志数据的被查询次数特征,聚类处理能够快速结合日志数据的特征进行分类,能够满足大量日志的索引需求以及搜索需求,提高了索引拆分效率。


    技术特征:

    1.一种日志数据处理方法,其特征在于,包括:

    2.根据权利要求1所述的方法,其特征在于,所述根据所述被查询次数预测值,对所述日志数据进行聚类处理,以得到所述日志数据的至少一个索引分类,包括:

    3.根据权利要求2所述的方法,其特征在于,所述根据所述日志特征和所述被查询次数预测值,对所述日志数据进行聚类处理,以得到至少一个索引分类,包括:

    4.根据权利要求1所述的方法,其特征在于,所述获取待处理的日志数据,包括:

    5.根据权利要求4所述的方法,其特征在于,在所述根据预训练的搜索次数预测模型,预测所述日志数据的被查询次数,以得到被查询次数预测值之前,还包括:

    6.根据权利要求5所述的方法,其特征在于,其中所述搜索次数预测模型为随机森林算法模型。

    7.根据权利要求5或6任一项所述的方法,其特征在于,其中所述历史搜索次数包括被监控告警搜索次数和被个性化搜索次数。

    8.根据权利要求1所述的方法,其特征在于,在所述根据所述被查询次数预测值,对所述日志数据进行聚类处理,以得到所述日志数据的至少一个索引分类之后,还包括:

    9.根据权利要求8所述的方法,其特征在于,其中所述被查询次数预测值包括被监控告警查询次数预测值和被个性化搜索次数预测值;

    10.根据权利要求9所述的方法,其特征在于,在所述根据所述被监控告警查询次数预测值和所述被个性化搜索次数预测值,对所述各拆分后的日志数据进行时效性分类,以得到所述各拆分后的日志数据的时效属性之后,还包括:

    11.根据权利要求9或10所述的方法,其特征在于,在所述根据所述索引分类,对所述日志数据进行索引拆分之前,还包括:

    12.一种日志数据处理装置,其特征在于,包括:

    13.一种日志数据处理装置设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;

    14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至11任一项所述的方法。


    技术总结
    本申请提供的一种日志数据处理方法、装置、设备及存储介质,该方法获取待处理的日志数据;根据预训练的搜索次数预测模型,预测日志数据的被查询次数,以得到被查询次数预测值,其中,搜索次数预测模型由日志数据训练样本和日志数据训练样本对应的历史搜索请求数据训练得到;根据被查询次数预测值,对日志数据进行聚类处理,以得到日志数据的至少一个索引分类,能够满足大量日志的索引需求以及搜索需求,提高了索引拆分效率。

    技术研发人员:吴松泽
    受保护的技术使用者:中国银联股份有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-88665.html

    最新回复(0)