本发明涉及工业数据清洗,具体涉及一种工业互联环境下的机床装备运行数据实时清洗方法。
背景技术:
1、随着智能制造技术及模式在广大制造企业的深入应用,工业互联越发深入,机床设备生产运行产生的数据量在日益增长,这些数据对于企业的发展具有不可估量的价值。但是,这些数据的质量并不高,这将会影响到后续数据分析结果的准确性,同时也会影响工业互联网的深入发展。而且基于问题数据的决策很有可能会给企业带来损失。
2、随着对机床运行状态监测认识的不断加深,普遍认为机床装备运行状态监测数据由机床状态监测数据、刀具状态监测数据、加工过程监测数据和加工工件质量监测数据组成,并且这些数据通常是由大量传感器采集,具有来源多、采集频率高、数量大、维度高、质量低等诸多特性。工业相关企业建立信息系统实现工业互联的同时,即使进行了规划设计,也无法保证所处理、存放数据的质量都能满足要求,更会影响工业互联的实时性。
3、目前,工业互联环境下机床装备运行状态监测数据质量的降低,可以归因于以下四个原因:恶劣环境的干扰、数据采集设备故障、数据传输故障以及由于各种格式导致的数据多样性。特别是由于前三个原因,很多错误数据会出现,包括缺失数据和异常数据,导致数据质量严重下降。采集到的错误数据会严重干扰到设备的正常运转,所以为了支持正确决策,及时报告及预警异常情况发生,工业上要求所管理的机床装备运行状态监测数据可靠、准确地反映企业的实际情况,从而降低异常状况突发所带来的损失,即需要对相关数据进行有效的清洗。因此,如何设计一种能够保证机床装备运行数据实时清洗的有效性和准确性的方法是亟需解决的技术问题。
技术实现思路
1、针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种工业互联环境下的机床装备运行数据实时清洗方法,首先对数据进行标准化处理,并通过klof算法进行异常数据检测得到部分异常数据及其标签,然后通过生成对抗填补网络进行缺失数据填充得到完整数据,最后通过vae网络根据部分异常数据及其标签对完整数据进行异常数据检测并实现异常数据填补,从而提高机床装备运行数据实时清洗的有效性和准确性。
2、为了解决上述技术问题,本发明采用了如下的技术方案:
3、一种工业互联环境下的机床装备运行数据实时清洗方法,包括:
4、s1:对机床装备的原始数据进行预处理,得到预处理数据;
5、s2:通过klof算法对预处理数据进行异常数据检测,得到部分异常数据及其标签;
6、s3:通过生成对抗填补网络模型对预处理数据进行缺失数据填充,得到完整数据;
7、s4:通过vae网络模型,根据检测出的部分异常数据及其标签对完整数据进行异常数据检测,得到完整数据中的异常数据及其标签,并对异常数据进行删除;
8、s5:通过生成对抗填补网络模型对删除了异常数据的完整数据进行缺失数据填充,得到数据清洗后的干净数据。
9、优选的,对原始数据的预处理包括数据标准化处理。
10、优选的,klof算法的处理步骤如下:
11、s201:对于预处理数据中的数据点p,计算其与其他数据点o之间的距离d(p,o);
12、公式表示为:
13、
14、式中:fi(p)和fi(o)表示数据点p和数据点o的特征值;dim表示特征值的维度;
15、s202:计算数据点p的k阶邻域nk(p);
16、公式表示为:
17、nk(p)={q|d(p,q)≤kd(p)};
18、式中:kd(p)表示点p的k阶距离;数据点q表示符合d(p,q)≤kd(p)的数据点;
19、s203:计算数据点p和数据点o之间的可达距离reach_diskk(p,o);
20、公式表示为:
21、reach_diskk(p,o)=max{kd(p),d(p,o)};
22、s204:计算数据点p的局部可达密度lrdk(p);
23、公式表示为:
24、
25、s205:计算数据点p的lof值lofk(p);
26、公式表示为:
27、
28、s206:计算数据点p的klof值klof(p);
29、公式表示为:
30、
31、
32、式中:klof的值越接近1,数据越可能是正常数据;klof的值越接近0,数据越可能是异常数据;
33、s207:对于预处理数据中的每个数据点,重复步骤s201至s206的计算过程,最终生成预处理数据的异常值掩码矩阵mklof;
34、公式表示为:
35、
36、式中:异常数据的标签为0,正常数据的标签为1。
37、优选的,生成对抗填补网络模型的处理步骤如下:
38、s301:将随机噪声z、预处理数据xs以及表示数据缺失情况的掩码矩阵m输入生成器中;
39、掩码矩阵m表示为:
40、
41、式中:掩码矩阵m中的元素仅由0、1组成,若预处理数据xs中出现数据缺失,则掩码矩阵m的对应位置为0,否则为1;
42、s302:通过生成器进行缺失数据填充,输出完整数据;
43、公式表示为:
44、
45、
46、式中:表示完整数据;xl=(x(s+1),…,xn);xs的每个数据是xl中相对应的每个数据的前s个数据;
47、s303:将完整数据和hint向量h输入判别器中;
48、hint向量h的公式表示为:
49、
50、式中:b=(b1,…,bn)是一个随机变量;
51、s304:通过判别器对生成器输出的完整数据进行判别,输出概率矩阵,其中概率矩阵中元素的数值越高,则对应数据是真实数据的概率越大;
52、公式表示为:
53、
54、式中:p表示完整数据的概率矩阵。
55、优选的,训练生成器时,冻结判别器的网络参数,通过梯度下降算法,最小化目标损失函数,进而更新生成器的网络参数;
56、训练生成器时的目标损失函数如下:
57、
58、式中:mklof表示预处理数据的异常值掩码矩阵。
59、优选的,训练判别器时,冻结生成器的网络参数,通过梯度上升算法,最大化目标损失函数,更新判别器的网络参数;
60、训练判别器时的目标损失函数如下:
61、
62、式中:mklof表示预处理数据的异常值掩码矩阵。
63、优选的,vae网络模型的处理步骤包括:首先根据检测出的部分异常数据及其标签学习原始数据的分布特征,得到完整数据中每个数据的重构概率;然后通过重构概率logpθ(x)来检测完整数据中每个数据是否为异常值,并为异常值生成异常标签;最后得到完整数据整体的异常标签后,删除其中的异常数据。
64、优选的,练vae网络模型时的损失函数计算公式如下:
65、
66、式中:kl表示kl散度,elbo表示最大化kl散度的证据下限;和pθ(x|z)分别表示vae网络模型的编码器和解码器;z表示隐变量;log pθ(z)表示隐变量分布;log pθ(x|z)表示编码器的输出值分布;log pθ(x)表示输出分布;表示对应条件下的期望;α和β是由klof的结果所确定的,α反应了当前窗口数据的异常值情况,β为正常窗口数据所占整体窗口数据的比例
67、本发明中工业互联环境下的机床装备运行数据实时清洗方法与现有技术相比,具有如下
68、有益效果:
69、本发明对原始数据进行预处理后,通过klof算法对预处理数据进行异常数据检测,得到部分异常数据及其标签。其中通过klof算法能够检测出与常规数据模式不一致的异常数据,这些异常数据反映机床装备在运行过程中的问题、故障或其他异常情况,通过对这些异常数据的分析可以优化资源配置和提高数据质量,同时为后续的数据清洗提供数据基础。
70、本发明通过生成对抗填补网络模型对预处理数据进行缺失数据填充得到完整数据。其中生成对抗填补网络能够利用判别器和生成器的相互作用,学习到原始数据的底层分布,在某些约束的情况下生成服从样本分布的数据集,从而可以恢复因缺失导致的大量丢失的数据信息,并且由于生成对抗填补网络训练与生成的高效性以及对不同分布特征数据集良好的适应性,可以极大提高机床装备运行数据实时清洗的有效性。与传统的基于统计学原理的填补方法相比,基于生成对抗填补网络的方法可以最大限度地恢复数据原始的分布情况,保证数据清洗的准确性。
71、本发明通过vae网络模型,根据klof算法检测出的部分异常数据及其标签,对生成对抗填补网络模型填补生成的完整数据进行异常数据检测,得到完整数据中的异常数据及其标签。其中结合klof算法和vae网络模型进行异常数据监测,可以增强异常数据检测时模型的泛化能力,更好地适应不同类型和规模的异常数据检测任务,从而保证机床装备运行数据实时清洗的有效性。同时通过vae网络模型可以对填补后的数据进行二次检测,进一步识别并去除完整数据中的异常数据,进而提高数据清洗的准确性,通过双重异常检测机制,还可以更全面地检测异常数据,确保数据的完整性和质量。
1.一种工业互联环境下的机床装备运行数据实时清洗方法,其特征在于,包括:
2.如权利要求1所述的工业互联环境下的机床装备运行数据实时清洗方法,其特征在于:步骤s1中,对原始数据的预处理包括数据标准化处理。
3.如权利要求1所述的工业互联环境下的机床装备运行数据实时清洗方法,其特征在于:步骤s2中,klof算法的处理步骤如下:
4.如权利要求1所述的工业互联环境下的机床装备运行数据实时清洗方法,其特征在于:步骤s3中,生成对抗填补网络模型的处理步骤如下:
5.如权利要求4所述的工业互联环境下的机床装备运行数据实时清洗方法,其特征在于:步骤s202中,训练生成器时,冻结判别器的网络参数,通过梯度下降算法,最小化目标损失函数,进而更新生成器的网络参数;
6.如权利要求4所述的工业互联环境下的机床装备运行数据实时清洗方法,其特征在于:步骤s204中,训练判别器时,冻结生成器的网络参数,通过梯度上升算法,最大化目标损失函数,更新判别器的网络参数;
7.如权利要求1所述的工业互联环境下的机床装备运行数据实时清洗方法,其特征在于:步骤s4中,vae网络模型的处理步骤包括:首先根据检测出的部分异常数据及其标签学习原始数据的分布特征,得到完整数据中每个数据的重构概率;然后通过重构概率log pθ(x)来检测完整数据中每个数据是否为异常值,并为异常值生成异常标签;最后得到完整数据整体的异常标签后,删除其中的异常数据。
8.如权利要求7所述的工业互联环境下的机床装备运行数据实时清洗方法,其特征在于:步骤s4中,练vae网络模型时的损失函数计算公式如下: