一种基于深度学习的表格数据异常检测方法及系统

    专利2025-06-12  54


    本发明涉及数据检测领域,更具体的说是涉及一种基于深度学习的表格数据异常检测方法及系统。


    背景技术:

    1、表格数据在异常检测(ad)领域是最为广泛应用的数据类型,对于各种科学和工业过程至关重要。举例而言,它在医疗疾病检测、金融欺诈检测、网络入侵检测等领域发挥着关键作用。在大多数实际应用中,往往难以获取或不被允许直接获取标记好的异常数据。因此,对于表格数据的异常检测通常在只包含正常样本的训练集中实施,并采用单类分类的设置。在这种情境下,异常检测的核心解决方法在于提取并学习训练数据的特征模式,以便能够检测偏离这些模式的异常情况。然而,由于表格数据具有异构性、复杂性,并且缺乏固定的结构,寻找这样的特征模式变得相当具有挑战性。

    2、为了解决这一挑战,近年来的研究表明ssl(自监督学习self-supervisedlearning)方法能够通过创建先导任务来训练神经网络,从而学习训练数据中的特征模式。一些方法使用基于距离的先导任务,即利用神经网络将数据映射到潜在空间,并期望每次映射后训练样本到聚类中心的距离最小。由此,特征模式由这样的距离建模,而对于那些测试时距离聚类中心过远的则被视为异常样本。一些方法采用基于对比学习的损失函数来创建先导任务,例如设计一组可学习的变换,然后将每个变换样本的表示拉近原始样本,而将不同变换样本的表示相互推开,由此学习到正常样本的特征模式。由于基于对比学习方法的特征模式都是通过对比损失来建模的,因此损失值高的样本表明异常的可能性高。

    3、然而,目前还没有研究采用mlm/mim(掩码图像/语言建模masked language/imagemodeling)来解决表格异常检测。mim和mlm通过捕获图像的未掩码补丁和文本上下文之间的相关性来重建掩码特征,这是ssl中最流行和最有效的方法之一,在nlp(自然语言处理natural language processing)和cv(计算机视觉computervision)领域应用广泛。

    4、然而,上述方法严重依赖于语言和图像数据的内在结构,不能直接推广到表格数据。以mim方法为例,其在表格数据上的缺点包括:其一,缺乏空间结构信息,mim方法通常依赖于图像中的像素空间结构,空间相邻的像素或图像块间常具有很强的相关性,而表格数据可能没有明显的空间结构。其二,表格数据中的特征通常是分散的,而mim方法预测像素值,适用于连续的图像数据,可能无法有效地捕捉这种分散性。

    5、综合来说,表格数据通常具有异质性,包含不同类型的特征(例如文本、数值、类别等),这可能导致mim和mlm方法在处理这种异质性数据时表现不佳。且由于表格数据的缺乏固定结构,找到特征模式变得相当具有挑战性,现有方法可能无法有效地捕捉和处理这种数据的特殊性。mim和mlm方法的目标是学习数据中的表示,但在表格数据中可能需要更具体的任务定义,如异常检测。这就需要设计更适合表格数据特性的自监督学习目标。因此,如何将其思想迁移至更复杂但实际应用广泛的表格数据至关重要。


    技术实现思路

    1、有鉴于此,本发明提供了一种基于深度学习的表格数据异常检测方法及系统,通过捕获训练表格数据中存在的特征之间的内在相关性对特征模式进行建模,即通过仅访问未掩码特征来恢复训练数据的被掩码特征。在合适的掩码下,可以通过较大的重构误差检测出偏离相关性的数据。由于手动找到这样的掩码是相当具有挑战性的,本发明的方法具有可学习的掩码策略,并利用神经网络来找到这样的掩码。

    2、为了实现上述目的,本发明采用如下技术方案:

    3、一种基于深度学习的表格数据异常检测方法,包括以下步骤:

    4、获取待检测数据,并输入掩码生成器中,输出多个掩码矩阵;

    5、将每个掩码矩阵与原始数据执行元素乘积,生成多个掩码;

    6、将多个掩码输入重构网络,将掩码输入映射到潜在空间的特征表示,并将特征从潜在空间重新映射到原始空间,进而输出与输入相匹配的重构数据;

    7、分别计算掩码与重构数据的重构误差,使用平均重构误差作为异常分数,将异常分数高于正常样本的待检测数据判为异常数据。

    8、可选的,掩码生成器包括特征提取器和sigmoid函数。

    9、可选的,掩码矩阵的每一行为一个待检测数据在不同特征上的掩码,每一列为一个特征在不同训练数据上的掩码。

    10、可选的,还包括将不同掩码矩阵之间的相似性限制在预设阈值之内。

    11、一种基于深度学习的表格数据异常检测系统,包括:

    12、待检测数据获取模块:用于获取待检测数据;

    13、掩码生成器模块:用于将待检测数据输入掩码生成器中,输出多个掩码矩阵,将每个掩码矩阵与原始数据执行元素乘积,生成多个掩码;

    14、自动编码器模块:用于将多个掩码输入重构网络,将掩码输入映射到潜在空间的特征表示,并将特征从潜在空间重新映射到原始空间,进而输出与输入相匹配的重构数据;

    15、异常数据判断模块:用于分别计算掩码与重构数据的重构误差,使用平均重构误差作为异常分数,将异常分数高于正常样本的待检测数据判为异常数据。

    16、可选的,所述掩码生成器包括特征提取器和sigmoid函数。

    17、经由上述的技术方案可知,与现有技术相比,本发明提供了一种基于深度学习的表格数据异常检测方法及系统,在表格数据异常检测方面表现出色。考虑到表格数据的复杂性、异构性和高维度特征,本发明具备较强的泛化能力,能够成功扩展至其他形式的大数据异常检测任务。这包括但不限于时间序列数据、文本数据、图像数据等,本发明注重捕捉数据中的关键特征模式,而不受特定数据类型的限制。这种灵活性使得本模型在处理不同领域和数据形式的异常检测任务时都能够取得显著的成效。



    技术特征:

    1.一种基于深度学习的表格数据异常检测方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的一种基于深度学习的表格数据异常检测方法,其特征在于,掩码生成器包括特征提取器和sigmoid函数。

    3.根据权利要求1所述的一种基于深度学习的表格数据异常检测方法,其特征在于,掩码矩阵的每一行为一个待检测数据在不同特征上的掩码,每一列为一个特征在不同训练数据上的掩码。

    4.根据权利要求1所述的一种基于深度学习的表格数据异常检测方法,其特征在于,还包括将不同掩码矩阵之间的相似性限制在预设阈值之内。

    5.一种基于深度学习的表格数据异常检测系统,其特征在于,包括:

    6.根据权利要求5所述的一种基于深度学习的表格数据异常检测系统,其特征在于,所述掩码生成器包括特征提取器和sigmoid函数。


    技术总结
    本发明公开了一种基于深度学习的表格数据异常检测方法及系统,涉及数据检测领域。本发明包括以下步骤:获取待检测数据,并输入掩码生成器中,输出多个掩码矩阵;将每个掩码矩阵与原始数据执行元素乘积,生成多个掩码;将多个掩码输入重构网络,将掩码输入映射到潜在空间的特征表示,并将特征从潜在空间重新映射到原始空间,进而输出与输入相匹配的重构数据;分别计算掩码与重构数据的重构误差,使用平均重构误差作为异常分数,将异常分数高于正常样本的待检测数据判为异常数据。本发明具备较强的泛化能力,能够成功扩展至其他形式的大数据异常检测任务。

    技术研发人员:乔媛媛,尹佳鑫,周子棠,林文辉,杨洁
    受保护的技术使用者:北京邮电大学
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-88123.html

    最新回复(0)