一种基于生成对抗网络的数据增强系统、方法和介质与流程

专利2022-07-08 124

本发明涉及数据处理领域，尤其是涉及一种基于生成对抗网络的数据增强系统、方法和介质。

背景技术：

航天测控技术主要是指在航天器的发射、安控、管理、运维、回收甚至报废过程中，通过跟踪测量、监视、控制，来测定和控制航天器的运动，检测和控制航天器上各种装置和系统，接收来自航天器的专用信息，以及与载人航天器进行通信联络的技术。

航天测控网分布在地球表面，主要由陆地上相互分离的指挥中心、测控站和深入海洋的测量船组成。随着地球上的频谱资源日益紧张，尤其是随着4g、5g应用的大规模展开，无线信号日益拥挤，带外干扰不断增加，特别是五到十年后6g技术的研究和推广将形成具有更大带宽且全球广泛覆盖的无线通信网络，航天测控网的雷达、应答器、通信等无线信号的质量正面临着日益严重的干扰。如何动态有效地减少电磁环境的无线信号干扰，是目前航天测控网将要面临的瓶颈问题。

基于人工智能的识别算法在计算机视觉领域发挥着巨大的作用；而在大动态大衰落的航天测控网络中，存在着信号采样点数据量不足的情况。数据量较小的数据集，无法很好地表现其数据分布，使得识别算法模型只关注于局部的数据分布，泛化能力较弱，容易出现过拟合的情况。

传统的数据增强方法从训练数据集中获取训练集映射标签；将训练集放入条件生成对抗网络的编码器中提取特征；并采用卷积网络结构进行解码；最后根据损失函数，采用梯度下降法对生成器和判别器同时进行优化。然而，航天测控网络的电磁空间具有大动态大衰落的特点，获取到的信号采样点无法全方位的表现噪声与干扰的分布，基于深度学习的信号识别网络无法训练出准确的信号识别模型。航天飞行器在发射升空的不同阶段，会经历不同的噪声干扰，如初始阶段会受到韦布尔分布的海杂波噪声；太空阶段会受到高斯噪声干扰。不同类型的干扰信号需要不同结构的生成对抗网络模型来训练学习。显然，现有技术无法解决上述问题。

技术实现要素：

本发明的目的在于提供一种基于生成对抗网络的数据增强方案，以解决现有技术中存在的上述技术问题。该方案考虑到航天测控网络中真实干扰情况，针对高斯噪声、海杂波、地杂波、单音干扰、多音干扰等五种噪声干扰提出了一种特定的生成对抗网络；其航天器所处环境快速动态变换的情况，能够有效减少参数调整所带来的时延；同时考虑到航天器环境实时变化情况而导致的非线性损失，加入了损失门限从而加快训练网络收敛速度。

本发明第一方面提供了一种基于生成对抗网络的数据增强系统，所述系统包括：源数据预处理单元，所述源数据预处理单元被配置为：对标准干扰噪声进行预处理，以获得标准训练集；预训练单元，所述预训练单元被配置为：利用所述生成对抗网络训练所述标准训练集，以得到初始生成器网络和初始判别器网络；生成对抗网络单元，所述生成对抗网络单元被配置为：基于所述初始生成器网络、所述初始判别器网络和实际干扰噪声优化所述生成对抗网络，利用优化的生成对抗网络从输入的随机信号数据中提取优化数据集；以及数据验证单元，所述数据验证单元被配置为：对所述优化数据集进行验证分析，所述验证分析为分布分析和频谱分析。

进一步地，所述生成对抗网络单元进一步包括生成器网络和判别器网络，其中：所述生成器网络被配置为：生成与所述输入的随机信号数据分布一致的假数据；所述判别器网络被配置为：判别所述假数据，以使得在所述优化的生成对抗网络中所述假数据被判别为所述输入的随机信号数据。

进一步地，所述生成对抗网络单元进一步被配置为：利用损失函数优化所述生成对抗网络。

进一步地，所述生成对抗网络单元进一步被配置为：设置损失门限以抑制优化所述生成对抗网络过程中产生的非线性损失。

本发明第二方面提供了一种基于生成对抗网络的数据增强方法，所述方法包括：对标准干扰噪声进行预处理，以获得标准训练集；利用所述生成对抗网络训练所述标准训练集，以得到初始生成器网络和初始判别器网络；基于所述初始生成器网络、所述初始判别器网络和实际干扰噪声优化所述生成对抗网络，利用优化的生成对抗网络从输入的随机信号数据中提取优化数据集；以及对所述优化数据集进行验证分析，所述验证分析为分布分析和频谱分析。

进一步地，所述生成对抗网络包括生成器网络和判别器网络，其中：所述生成器网络生成与所述输入的随机信号数据分布一致的假数据；所述判别器网络判别所述假数据，以使得在所述优化的生成对抗网络中所述假数据被判别为所述输入的随机信号数据。

进一步地，利用损失函数优化所述生成对抗网络。

进一步地，设置损失门限以抑制优化所述生成对抗网络过程中产生的非线性损失。

本发明第三方面提供了一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行根据本发明第二方面的方法中的步骤。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的基于生成对抗网络的数据增强系统的结构图；以及

图2为根据本发明实施例的基于生成对抗网络的数据增强方法的流程的示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一方面提供了一种基于生成对抗网络的数据增强系统，其针对航天器所处环境快速动态变换的情况，能够有效减少参数调整所带来的时延；同时考虑到航天器环境实时变化情况而导致的非线性损失，加入了损失门限从而加快训练网络收敛速度。

图1为根据本发明实施例的基于生成对抗网络的数据增强系统的结构图。如图1所示，系统100包括源数据预处理单元101、预训练单元102、生成对抗网络单元103以及数据验证单元104。

源数据预处理单元101对标准干扰噪声进行预处理，以获得标准训练集。具体地，源数据预处理单元将原始噪声干扰信号如高斯噪声、单音多音干扰等进行预处理，输出为生成对抗网络可处理的数据；也就是说，将计算机模拟得到的标准干扰噪声模型进行削峰、补齐、抽样等操作，提取为神经网络可读取的数据集。

预训练单元102利用所述生成对抗网络训练所述标准训练集，以得到初始生成器网络和初始判别器网络。具体地，预训练单元对标准训练集采用生成对抗网络进行训练，得到初始生成器网络和初始判别器网络的结构并保存，从而使线上网络不用从初始值开始训练，减少参数调整带来的时延。

生成对抗网络单元103基于所述初始生成器网络、所述初始判别器网络和实际干扰噪声优化所述生成对抗网络，利用优化的生成对抗网络从输入的随机信号数据中提取优化数据集。具体地，生成对抗网络单元根据预处理后的源数据训练神经网络的生成器和判别器，训练完成后使用生成器生成模拟数据，也即，根据实际收集到的干扰噪声信号训练网络中神经元的具体参数数值，得到训练效果较好的生成器网络，将随机信号输入此网络再经过多次循环得到充足的干扰噪声训练集。

生成对抗网络并不是简单地转换数据，而是通过学习现有数据集的分布来生成匹配数据集特性的新数据，其利用随机噪声生成与真实数据分布相似的假数据，从而实现数据扩展。生成对抗网络进一步包括生成器网络和判别器网络。

生成器网络生成与所述输入的随机信号数据分布一致的假数据。一般来说，生成器网络是一个回归网络，其学习真实数据集的分布，并从随机噪声输入中生成假数据。随着噪音的变化，产生的数据也非常多样化。经过训练的生成器能够生成与原始数据集分布一致的数据。比如，生成器网络接收一个随机噪声向量z，它的目标就是通过这个噪声来生成一个服从真实样本分布的假样本xfake。

判别器网络判别所述假数据，以使得在所述优化的生成对抗网络中所述假数据被判别为所述输入的随机信号数据。判别器网络通常是一个分类网络。将生成的带假标签的数据和带真标签的原始数据发送到识别器进行训练，学习如何判断数据是否来自原始数据集。一个训练效果较好的判别能够决定生成的数据是否足够接近真实数据，以用于数据增强。例如，判别器网络接收一个样本数据作为输入，所以这个样本可以是生成器网络生成的假样本xfake也可以是真实样本xreal。它输出一个标量，标量的数值代表了输入样本到底是真实样本还是生成器网络生成的假样本的概率。如果接近1，则代表是真实样本，接近于0则代表是生成器网络的假样本，所以此时判别器网络最后一层的激活函数为sigmoid函数。

生成对抗网络的最终目标是在判别器网络很强大的同时，生成器网络生成的假样本送给生成器网络后其输出值变为0.5，说明生成器网络已经完全骗过了生成器网络，即生成器网络已经区分不出来输入的样本到底是xfake还是xreal，从而得到一个生成效果很好的生成器网络。

生成对抗网络单元利用损失函数优化所述生成对抗网络。损失函数如下：

损失函数是两个分布各自期望的和，其中g表示生成器网络，d表示判别器网络，pdata是真实数据的概率分布，pg是生成器所生成的假样本的概率分布。对于判别器网络，它的目的是让pdata中的样本的输出结果尽可能的大，即pg变大，而让生成的样本x的输出结果尽可能的小。所以可以得出目标函数为：

这是一个最大最小优化问题，对应上述的两个优化过程。先是优化判别器网络d，再去优化生成器网络g，可以拆解为两个公式：

优化判别器网络d：

优化生成器网络g：

优化判别器网络d时，即对判别网络的优化，输入的x是真样本集，g(z)是经过生成网络后的假样本集。对于真样本集，优化结果是越大越好；对于生成的假样本集，优化结果是越小越好，即分别对应着公式中的前后两项。

传统的机器学习算法，一般会定义一个模型让数据去学习。比如，最初知道数据是高斯分布的，只是不知道高斯分布的具体参数，这时定义高斯分布的模型，再让数据去学习高斯分布的参数得到最终的模型。然而，生成对抗网络的强大之处在于，可以自主学习原始真实样本集的数据分布。比如将随机噪声经过层层映射组合起来的复杂映射规律之后可以学习到真实样本集的高斯分布。所以生成对抗网络可以学习样本数据的特征从而生成足够的数据集。

生成对抗网络单元还设置有损失门限，以抑制优化所述生成对抗网络过程中产生的非线性损失。所述生成对抗网络中的生成器网络和判别器网络的训练所依赖的梯度是由非线性过滤器处理过的损失得来的。损失过滤器在训练初期会给损失加入一个较高的权重，使生成器和判别器的以较快的梯度训练；当迭代次数足够，损失下降到一定程度时，两个网络的损失会出现突变的情况，为了防止过大的损失梯度对当前网络的影响，损失过滤器会提供一个相对门限来抑制损失的突增，促使两个网络向稳定的方向训练。

数据验证单元104对所述优化数据集进行验证分析，所述验证分析为分布分析和频谱分析。具体地址，数据验证单元对上述生成器网络所生成的数据进行数据分布分析以及频谱分析，将合格的数据保存并提供到识别网络进行训练。

此外，生成对抗网络可针对标准数据集进行预训练得到各种干扰噪声类别的生成器和判别器的网络结构，并放入存储单元，以便应对在航天器飞行过程中的环境变化对干扰噪声带来的影响，从而使生成对抗网络具有自适应泛化能力。

生成对抗网络的试验举例

步骤1、生成标准训练集。由matlab等计算机仿真软件，通过标准函数生成干扰噪声时域或频域上的数字信号数据集。此数据集完美符合各自的数据分布特征，如，高斯噪声数据完美符合高斯分布；海杂波噪声数据完美符合韦布尔分布；地杂波噪声数据完美符合对数正态分布。此数据集具备各类别干扰噪声完备的特征分布，作为生成对抗网络的训练样本和生成数据的对比标准。

步骤2、对训练集进行预处理。训练集预处理包括数据的维度归一化和幅值归一化。维度归一化是对训练样本进行抽样取点，使其维度与判别器网络的输入维度保持一致，但抽样取点要满足奈奎斯特抽样定理以保证数据频域特征不丢失。幅值归一化主要针对频域数据出现脉冲等单点数值较大的情况，对整体进行归一化处理，防止生成对抗网络只关注能量较大的点导致训练无效。

步骤3、将标准训练集输入到线下生成对抗网络进行训练。线下生成对抗网络采用标准生成对抗网络算法：设定迭代次数，每次迭代中，将随机数据输入生成器网络中，输出为样本集同样维度的生成数据，同时将生成数据和样本数据输入判别器网络中，得到各自概率值，代入公式上述公式计算得到损失值，通过梯度下降法对生成器网络和判别器网络分别进行优化。重复进行步骤3直至迭代结束。保存各种干扰噪声的生成器网络和判别器网络网络。

步骤4、训练真实环境干扰噪声数据。训练过程如同步骤3，将预处理后的真实噪声数据输入线上生成对抗网络中。线上gan算法如上图流程图所示，其中多类别生成器网络和判别器网络可以根据干扰噪声类别选择预先训练好的网络模型；损失传递经过损失滤波器，在训练前期加大损失浮动，后期对损失进行上限控制，防止出现较大波动，达到网络快速收敛的效果。迭代结束，保存各种干扰噪声的生成器网络。

步骤5、利用训练好的生成器生成数据。利用步骤4保存的生成器网络，设置循环次数，可以生成大量符合标准样本集分布的干扰噪声数据，对生成数据和样本数据同时进行特征分布比对，验证数据准确性。

综上，该方法适用于航天飞行器的通信网络中，在高时延大衰落的干扰噪声信道下，系统无法收集到足够的干扰噪声样本数据，从而无法满足识别模型中神经网络的训练。而原始的数据集扩充的方法如平移、旋转、映射等无法保留数据原本的特征，如高斯噪声的分布和多音干扰的频谱特征等。本方法为干扰噪声感知网络提供具有完备特征的数据训练集，通过生成式对抗网络中生成网络的拟合能力生成模拟数据，同时通过判别网络的判断能力判断生成数据是否与原始数据相似，并将结果反馈给生成网络。两种网络通过不断的博弈过程最终达到纳什均衡，即生成网络生成的数据有50％的概率被判断为真实的数据，50％的概率被判断为伪造的数据。

本发明第二方面提供了一种基于生成对抗网络的数据增强方法。图2为根据本发明实施例的基于生成对抗网络的数据增强方法的流程的示意图，如图2所示，流程200始于步骤201，对标准干扰噪声进行预处理，以获得标准训练集；接着在步骤202，利用所述生成对抗网络训练所述标准训练集，以得到初始生成器网络和初始判别器网络；随后在步骤203基于所述初始生成器网络、所述初始判别器网络和实际干扰噪声优化所述生成对抗网络，利用优化的生成对抗网络从输入的随机信号数据中提取优化数据集；最后在步骤204，对所述优化数据集进行验证分析，所述验证分析为分布分析和频谱分析。

进一步地，利用损失函数优化所述生成对抗网络。

进一步地，设置损失门限以抑制优化所述生成对抗网络过程中产生的非线性损失。

本发明第三方面提供了一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行根据本发明第二方面的方法中的步骤。

综上，本发明提出了一种基于生成对抗网络的数据增强方案，在航天测控网络中，航天器在发射升空的过程中，所处环境的噪声会由地/海杂波，快速变换为高斯噪声，其间伴随了单音/多音干扰，而传统生成对抗网络的训练具有时延性，从而无法快速应对干扰噪声数据集的快速变化。该方案对不同的干扰噪声模型进行预训练，产生大量的干扰噪声模拟数据作为标准库，并且保留训练好的生成器和判别器网络结构。当航天器系统有干扰噪声感知任务时，通过标准库查找近似的数据分布，选择对应的神经网络结构，从而降低训练的时延和能耗。针对损失函数的非线性处理方法，本方案解决了生成对抗网络训练时延较大的问题，从而使生成器在训练初始获得较大的下降梯度，生成器网络能够得到快速的学习；随着训练迭代次数增加，损失会在非线性函数的处理下逐渐收敛，从而使生成器网络逐渐稳定，减少了数据突变的风险。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术特征：

1.一种基于生成对抗网络的数据增强系统，其特征在于，所述系统包括：

源数据预处理单元，所述源数据预处理单元被配置为：对标准干扰噪声进行预处理，以获得标准训练集；

预训练单元，所述预训练单元被配置为：利用所述生成对抗网络训练所述标准训练集，以得到初始生成器网络和初始判别器网络；

生成对抗网络单元，所述生成对抗网络单元被配置为：基于所述初始生成器网络、所述初始判别器网络和实际干扰噪声优化所述生成对抗网络，利用优化的生成对抗网络从输入的随机信号数据中提取优化数据集；以及

数据验证单元，所述数据验证单元被配置为：对所述优化数据集进行验证分析，所述验证分析为分布分析和频谱分析。

2.根据权利要求1所述的系统，其特征在于，所述生成对抗网络单元进一步包括生成器网络和判别器网络，其中：

所述生成器网络被配置为：生成与所述输入的随机信号数据分布一致的假数据；

所述判别器网络被配置为：判别所述假数据，以使得在所述优化的生成对抗网络中所述假数据被判别为所述输入的随机信号数据。

3.根据权利要求1所述的系统，其特征在于，所述生成对抗网络单元进一步被配置为：利用损失函数优化所述生成对抗网络。

4.根据权利要求1所述的系统，其特征在于，所述生成对抗网络单元进一步被配置为：设置损失门限以抑制优化所述生成对抗网络过程中产生的非线性损失。

5.一种基于生成对抗网络的数据增强方法，其特征在于，所述方法包括：

对标准干扰噪声进行预处理，以获得标准训练集；

利用所述生成对抗网络训练所述标准训练集，以得到初始生成器网络和初始判别器网络；

基于所述初始生成器网络、所述初始判别器网络和实际干扰噪声优化所述生成对抗网络，利用优化的生成对抗网络从输入的随机信号数据中提取优化数据集；以及

对所述优化数据集进行验证分析，所述验证分析为分布分析和频谱分析。

6.根据权利要求1所述的方法，其特征在于，所述生成对抗网络包括生成器网络和判别器网络，其中：

所述生成器网络生成与所述输入的随机信号数据分布一致的假数据；

所述判别器网络判别所述假数据，以使得在所述优化的生成对抗网络中所述假数据被判别为所述输入的随机信号数据。

7.根据权利要求1所述的方法，其特征在于，利用损失函数优化所述生成对抗网络。

8.根据权利要求1所述的方法，其特征在于，设置损失门限以抑制优化所述生成对抗网络过程中产生的非线性损失。

9.一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行根据权利要求5-8中任一项所述的方法中的步骤。

技术总结
本发明提供一种基于生成对抗网络的数据增强系统、方法和介质。所述系统包括：源数据预处理单元，所述源数据预处理单元被配置为：对标准干扰噪声进行预处理，以获得标准训练集；预训练单元，所述预训练单元被配置为：利用所述生成对抗网络训练所述标准训练集，以得到初始生成器网络和初始判别器网络；生成对抗网络单元，所述生成对抗网络单元被配置为：基于所述初始生成器网络、所述初始判别器网络和实际干扰噪声优化所述生成对抗网络，利用优化的生成对抗网络从输入的随机信号数据中提取优化数据集；以及数据验证单元，所述数据验证单元被配置为：对所述优化数据集进行验证分析，所述验证分析为分布分析和频谱分析。

技术研发人员：张陆勇;王钰渤;陈佃军;何译斌;赵武斌;李昌隆;胡冲
受保护的技术使用者：北京邮电大学
技术研发日：2020.11.20
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-18671.html

专利

最新回复(0)