数据处理方法、装置、存储介质及电子设备与流程

    专利2025-05-03  34


    本发明涉及自然语言处理领域,尤其涉及一种数据处理方法、装置、存储介质及电子设备。


    背景技术:

    1、近年来,人工智能技术发展迅速,在人工智能技术领域中,自然语言处理(naturallanguage processing,nlp)是其中的一个重要的方向。在自然语言处理领域采用机器学习尤其是深度学习的技术手段,非常重要的问题就是需要大量的训练数据。

    2、目前,数据增强技术缓解了nlp学习模型的训练样本数据不足的问题,但是,现有的数据增强技术产生的新样本,很多时候就根本不是真实可能存在的样本,属于质量较低的训练样本,利用这种训练样本对nlp学习模型进行训练时,实际上对nlp学习模型的损失没什么影响,nlp学习模型训练效果并不好。


    技术实现思路

    1、本发明提供一种数据处理方法、装置、存储介质及电子设备,能利用较少的语料数据产生大量高质量的训练样本进行模型训练,提高模型训练效果。

    2、本申请实施例提供了一种数据处理方法,包括:

    3、获取第一语料数据集,所述第一语料数据集中包括多条第一语料数据;

    4、利用预先构建的语言表征模型,对所述第一语料数据集进行编码处理,得到目标句子表征集;

    5、根据所述目标句子表征集构建每条所述第一语料数据对应的正样本和负样本;

    6、根据所述正样本和所述负样本构建目标负样本;

    7、利用所有所述第一语料数据对应的所述正样本、所述负样本和所述目标负样本,对所述语言表征模型进行预训练,得到预训练后的语言表征模型。

    8、本申请实施例还提供了一种数据处理装置,包括:

    9、获取模块,用于获取第一语料数据集,所述第一语料数据集中包括多条第一语料数据;

    10、处理模块,用于利用预先构建的语言表征模型,对所述第一语料数据集进行编码处理,得到目标句子表征集;

    11、第一构建模块,用于根据所述目标句子表征集构建每条所述第一语料数据对应的正样本和负样本;

    12、第二构建模块,用于根据所述正样本和所述负样本构建目标负样本;

    13、预训练模块,用于利用所有所述第一语料数据对应的所述正样本、所述负样本和所述目标负样本,对所述语言表征模型进行预训练。

    14、在一些实施方式中,所述第一构建模块具体用于:

    15、利用预先构建的语言表征模型,对所述第一语料数据集进行多次编码处理,得到句子表征集;

    16、根据所述句子表征集确定目标句子表征集,所述目标句子表征集包括第一目标句子表征集和第二目标句子表征集,每条所述第一语料数据分别对应所述第一目标句子表征集中的一个第一句子表征、以及所述第二目标句子表征集中的一个第二句子表征。

    17、在一些实施方式中,所述第一构建模块具体用于:

    18、从所述第一语料数据集中确定目标语料数据;

    19、将所述目标语料数据对应的所述第一句子表征和所述第二句子表征,均作为所述目标语料数据的正样本;

    20、将其它的所述第一语料数据对应的所述第一句子表征和/或所述第二句子表征,均作为所述目标语料数据的负样本,所述其它的所述第一语料数据为所述第一语料数据集中除所述目标语料数据之外的所有第一语料数据。

    21、在一些实施方式中,所述第二构建模块具体用于:

    22、选取每条所述第一语料数据对应的一个所述正样本和所有所述负样本;

    23、通过预设公式对选取的所述正样本和任意一个选取的所述负样本进行线性组合,得到对应的第三句子表征,所述预设公式包括超参数,每个所述第二句子表征对应一个所述第三句子表征;

    24、将所述第三句子表征,作为对应语料数据的一个目标负样本。

    25、在一些实施方式中,所述预训练模块具体用于:

    26、将每条所述第一语料数据对应的所述正样本、所述负样本和所述目标负样本输入预设损失函数中进行计算,得到损失值;

    27、根据所述损失值反向调整所述语言表征模型的网络参数;

    28、根据调整后的所述语言表征模型,返回执行所述利用预先构建的语言表征模型,对所述第一语料数据集进行多次编码处理,得到第一目标句子表征集和第二目标句子表征集的步骤,直至满足迭代停止条件。

    29、在一些实施方式中,所述预训练模块具体用于:

    30、确定每条所述第一语料数据对应的所述正样本之间的第一相似度;

    31、确定每条所述第一语料数据对应的一个所述正样本和每个所述负样本之间的第二相似度;

    32、确定每条所述第一语料数据对应的一个所述正样本和每个所述目标负样本之间的第三相似度;

    33、根据所述第一相似度、所述第二相似度和所述第三相似度,确定损失值。

    34、在一些实施方式中,所述数据处理装置还包括任务处理模块,用于:

    35、在所述预训练模块对所述语言表征模型进行预训练之后,根据预训练后的所述语言表征模型和预设的下游任务模型,构建语言任务处理模型;

    36、利用第二语料数据集、以及所述第二语料数据集中每条所述第二语料数据的标注信息,对所述语言任务处理模型进行训练,得到已训练的语言任务处理模型;

    37、利用已训练的所述语言任务处理模型,对待处理的文本信息进行处理。

    38、在一些实施方式中,所述下游任务模型包括问答任务模型,所述标注信息包括答案标签,所述任务处理模块具体用于:

    39、利用所述已训练的语言任务处理模型,对待处理的文本信息进行处理,得到所述文本信息对应的答案信息。

    40、本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有多条指令,所述指令适于由处理器加载以执行上述任一项数据处理方法。

    41、本申请实施例还提供了一种电子设备,包括耦合的存储器和处理器,所述存储器存储内有计算机程序,所述处理器用于运行所述存储器内的所述计算机程序,以执行上述任一项数据处理方法。

    42、本申请提供的数据处理方法、装置、存储介质及电子设备,通过获取第一语料数据集,并利用预先构建的语言表征模型,对第一语料数据集进行编码处理,得到目标句子表征集,接着,根据目标句子表征集构建每条第一语料数据对应的正样本和负样本,并根据正样本和负样本构建目标负样本,之后利用所有第一语料数据对应的正样本、负样本和目标负样本,对语言表征模型进行预训练,从而能基于特征空间对语料数据进行数据增强,以便利用较少的语料数据产生大量高质量的特征样本进行模型训练,提高模型训练效果。



    技术特征:

    1.一种数据处理方法,其特征在于,包括:

    2.根据权利要求1所述的方法,其特征在于,所述利用预先构建的语言表征模型,对所述第一语料数据集进行编码处理,得到目标句子表征集,包括:

    3.根据权利要求2所述的方法,其特征在于,所述根据所述目标句子表征集构建每条所述第一语料数据对应的正样本和负样本,包括:

    4.根据权利要求1所述的方法,其特征在于,所述根据所述正样本和所述负样本构建目标负样本,包括:

    5.根据权利要求1所述的方法,其特征在于,所述利用所有所述第一语料数据对应的所述正样本、所述负样本和所述目标负样本,对所述语言表征模型进行预训练,包括:

    6.根据权利要求5所述的方法,其特征在于,所述根据每条所述第一语料数据对应的所述正样本、所述负样本和所述目标负样本确定损失值,包括:

    7.根据权利要求1-6中任一项所述的方法,其特征在于,在对所述语言表征模型进行预训练之后,还可以包括:

    8.根据权利要求7所述的方法,其特征在于,所述下游任务模型包括问答任务模型,所述标注信息包括答案标签,所述利用已训练的所述语言任务处理模型,对待处理的文本信息进行处理,包括:

    9.一种数据处理装置,其特征在于,包括:

    10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有多条指令,所述指令适于由处理器加载以执行权利要求1至8中任一项所述的数据处理方法。

    11.一种电子设备,其特征在于,包括耦合的存储器和处理器,所述存储器存储内有计算机程序,所述处理器用于运行所述存储器内的所述计算机程序,以执行权利要求1至8中任一项所述的数据处理方法中的步骤。


    技术总结
    本申请公开了一种数据处理方法、装置、存储介质及电子设备,该方法包括:获取第一语料数据集;利用预先构建的语言表征模型,对第一语料数据集进行编码处理,得到目标句子表征集;根据目标句子表征集构建每条第一语料数据对应的正样本和负样本;根据正样本和负样本构建目标负样本;利用所有第一语料数据对应的正样本、负样本和目标负样本,对语言表征模型进行预训练,从而能利用较少的语料数据产生大量高质量的特征样本进行模型训练,提高模型训练效果。

    技术研发人员:黄雅,赵向军
    受保护的技术使用者:TCL科技集团股份有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-86447.html

    最新回复(0)