数据集的处理方法、装置、设备和存储介质与流程

    专利2022-07-08  112


    本申请涉及数据质量评估技术领域,特别是涉及一种数据集的处理方法、装置、计算机设备和存储介质。



    背景技术:

    随着业务系统的成熟应用和移动终端的普及,数据出现了大规模增长;与此同时,大数据的应用也逐渐成熟起来,而大数据的应用需要以数据为基础,数据的质量好坏将会影响着大数据的应用效果,因此数据的质量评估也越来越重要。然而目前的数据质量评价主要从数据的某一方面进行评价,无法综合全面地评价数据质量。



    技术实现要素:

    基于此,有必要针对上述技术问题,提供一种数据集的处理方法、装置、计算机设备和存储介质。

    一种数据集的处理方法,数据集包括多条数据行,各条数据行包括多个数据字段;所述方法包括:

    获取所述多条数据行中的任一条数据行;

    根据所述任一条数据行在所述多条数据行中的唯一性,得到所述任一条数据行对应的唯一性评估值;

    根据所述任一条数据行的产生时间与使用时间的比对,得到所述任一条数据行对应的时效性评估值;

    判断所述任一条数据行中各数据字段的数值是否符合设定的正确数值,得到所述任一条数据行对应的正确性评估值;

    根据所述任一条数据行中各数据字段的字段值与设定的精确字段值之间的偏差程度,得到所述任一条数据行对应的精确性评估值;

    判断所述任一条数据行中各数据字段的数值是否为空,得到所述任一条数据行对应的完整性评估值;

    获取所述任一条数据行对应的时效性评估值、正确性评估值、精确性评估值和完整性评估值之间的平均值,确定所述平均值与所述任一条数据行对应的唯一性评估值的乘积值,将所述乘积值作为所述任一条数据行的评估值;

    基于所述各条数据行的评估值,确定所述数据集的评估值。

    一种数据集的处理装置,数据集包括多条数据行,各条数据行包括多个数据字段;所述装置包括:

    数据行获取模块,用于获取所述多条数据行中的任一条数据行;

    唯一性评估模块,用于根据所述任一条数据行在所述多条数据行中的唯一性,得到对应的唯一性评估值;

    时效性评估模块,用于根据所述任一条数据行的产生时间与使用时间的比对,得到对应的时效性评估值;

    正确性评估模块,用于判断所述任一条数据行中各数据字段的数值是否符合设定的正确数值,得到对应的正确性评估值;

    精确性评估模块,用于根据所述任一条数据行中各数据字段的字段值与设定的精确字段值之间的偏差程度,得到对应的精确性评估值;

    完整性评估模块,用于判断所述任一条数据行中各数据字段的数值是否为空,得到对应的完整性评估值;

    数据行评估模块,用于获取所述任一条数据行对应的时效性评估值、正确性评估值、精确性评估值和完整性评估值之间的平均值,确定所述任一条数据行对应的唯一性评估值与所述平均值的乘积值,将所述乘积值作为所述任一条数据行的评估值;

    数据集评估模块,用于基于所述各条数据行的评估值,确定所述数据集的评估值。

    一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述方法。

    一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述方法。

    上述数据集的处理方法、装置、计算机设备和存储介质中,数据集包括多条数据行,各条数据行包括多个数据字段;主要包括:获取所述多条数据行中的任一条数据行;根据所述任一条数据行在所述多条数据行中的唯一性,得到所述任一条数据行对应的唯一性评估值;根据所述任一条数据行的产生时间与使用时间的比对,得到所述任一条数据行对应的时效性评估值;判断所述任一条数据行中各数据字段的数值是否符合设定的正确数值,得到所述任一条数据行对应的正确性评估值;根据所述任一条数据行中各数据字段的字段值与设定的精确字段值之间的偏差程度,得到所述任一条数据行对应的精确性评估值;判断所述任一条数据行中各数据字段的数值是否为空,得到所述任一条数据行对应的完整性评估值;获取所述任一条数据行对应的时效性评估值、正确性评估值、精确性评估值和完整性评估值之间的平均值,确定所述平均值与所述任一条数据行对应的唯一性评估值的乘积值,将所述乘积值作为所述任一条数据行的评估值;基于所述各条数据行的评估值,确定所述数据集的评估值。可见,本申请提供的数据集处理方法,从数据元(相当于数据字段)、数据行和数据集三个方面,实现多维度地综合评价分析数据质量,保证数据质量评价结果的可靠性,便于后续的大数据应用。并且,上述方法中,数据质量可以由数据集的质量表征,而数据集的质量由多条数据行的质量决定,数据行的质量由数据元决定;从时效性和唯一性对数据行进行质量评估,从正确性、精确性和完整性对数据元进行质量评估,并得到各条数据行的评估值,根据各条数据行的评估值确定数据集的评估值,以全面综合地评估数据质量。

    附图说明

    图1为一个实施例中数据集的处理方法的应用环境图;

    图2为一个实施例中数据集的处理方法的流程示意图;

    图3为另一个实施例中数据集的处理方法的流程示意图;

    图4为一个实施例中数据集的处理装置的结构框图;

    图5为一个实施例中计算机设备的内部结构图。

    具体实施方式

    为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

    在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。

    本申请提供的数据集的处理方法,可以应用于如图1所示的应用环境中。其中,该应用环境包括数据元评估器、数据行评估器、数据集评估器和2个数据缓存。其处理流程可以包括:

    (1)数据元评估器根据数据字段属性类型对字段数值质量进行评估,唯一性:数据元评估器对数据持久化存储进行检查,判断各条数据行是否具有唯一性;正确性,数据元评估器对范围值字段、具有准确数值的字段值进行判断;精确性,评估器对当前数据值与给定的值的相似程度;完整性,评估器对字段是否为空进行判断,对所有字段都必须执行检查;时效性,评估期对当前数据产生与提交时间进行对比进行评估。

    (2)第一数据缓存用于缓存数据元评估器评估后的数据。

    (3)数据行评估器对缓存的数据进行综合评估,得到本条数据行的数据质量得分(相当于该条数据行的评估值)。

    (4)第二数据缓存用于缓存数据行评估器评估后的数据。

    (5)数据集评估器对第二缓存中的数据进行综合的评估,得到数据集的综合质量评分(相当于数据集的评估值)。

    其中,数据质量可以由评估值的大小衡量,评估值越大数据质量越高。数据质量评估是由每条数据行的评估值进行加权求平均得到。若每条数据行的评估值集合为r={r1,r2,r3…rn},则该数据集的评估值为:

    在一个实施例中,如图2所示,提供了一种数据集的处理方法,以该方法应用于计算机设备为例进行说明,包括以下步骤:

    步骤s201,获取所述多条数据行中的任一条数据行;

    步骤s202,根据所述任一条数据行在所述多条数据行中的唯一性,得到所述任一条数据行对应的唯一性评估值;

    步骤s203,根据所述任一条数据行的产生时间与使用时间的比对,得到所述任一条数据行对应的时效性评估值;

    其中,时效性用于衡量数据行从产生到使用的时间长久,时效评估值越小表示时效性越差,反之越好;若用t表征时效性评估值,那么其中t0表示当前的使用时间,t表示数据产生的时间,时间单位为天。

    步骤s204,判断所述任一条数据行中各数据字段的数值是否符合设定的正确数值,得到所述任一条数据行对应的正确性评估值;

    步骤s205,根据所述任一条数据行中各数据字段的字段值与设定的精确字段值之间的偏差程度,得到所述任一条数据行对应的精确性评估值;

    其中,精确性可以表征当前数据字段的数值与给定的数值的偏差程度,或者数据字段的文字与给定的文字的偏差程度。

    步骤s206,判断所述任一条数据行中各数据字段的数值是否为空,得到所述任一条数据行对应的完整性评估值;

    其中,完整性可以表征数据行的数据字段的数值中是否为空数值。

    可见,在上述处理步骤中,从唯一性和时效性对整条数据行进行评估,从正确性、精确性和完整性对各数据元(相当于数据字段)进行评估,体现多维度的数据质量评估。

    步骤s207,获取所述任一条数据行对应的时效性评估值、正确性评估值、精确性评估值和完整性评估值之间的平均值,确定所述平均值与所述任一条数据行对应的唯一性评估值的乘积值,将所述乘积值作为所述任一条数据行的评估值;

    示例性地,设u为唯一性评估值,w为正确性评估值,a为精确性评估值,t为时效性评估值,i为完整性评估值,则那么其中一条数据行的评估值r为:

    步骤s208,基于所述各条数据行的评估值,确定所述数据集的评估值。

    更进一步地,计算机设备可以将所述各条数据行的评估值之间的平均值作为所述数据集的评估值。

    示例性地,如果每条数据行的评估值集合为r={r1,r2,r3…rn},则该数据集的评估值为:

    上述数据集的处理方法中,数据集包括多条数据行,各条数据行包括多个数据字段;主要包括:获取所述多条数据行中的任一条数据行;根据所述任一条数据行在所述多条数据行中的唯一性,得到所述任一条数据行对应的唯一性评估值;根据所述任一条数据行的产生时间与使用时间的比对,得到所述任一条数据行对应的时效性评估值;判断所述任一条数据行中各数据字段的数值是否符合设定的正确数值,得到所述任一条数据行对应的正确性评估值;根据所述任一条数据行中各数据字段的字段值与设定的精确字段值之间的偏差程度,得到所述任一条数据行对应的精确性评估值;判断所述任一条数据行中各数据字段的数值是否为空,得到所述任一条数据行对应的完整性评估值;获取所述任一条数据行对应的时效性评估值、正确性评估值、精确性评估值和完整性评估值之间的平均值,确定所述平均值与所述任一条数据行对应的唯一性评估值的乘积值,将所述乘积值作为所述任一条数据行的评估值;基于所述各条数据行的评估值,确定所述数据集的评估值。可见,本申请提供的数据集处理方法,从数据元、数据行和数据集三个方面,实现多维度地综合评价分析数据质量,保证数据质量评价结果的可靠性,便于后续的大数据应用。并且,上述方法中,数据质量可以由数据集的质量表征,而数据集的质量由多条数据行的质量决定,数据行的质量由数据元决定;从时效性和唯一性对数据行进行质量评估,从正确性、精确性和完整性对数据元进行质量评估,并得到各条数据行的评估值,根据各条数据行的评估值确定数据集的评估值,以全面综合地评估数据质量。

    以下介绍中,以数据行包括的各数据字段集合为p={p1,p2,p3…pn}进行。

    在一个实施例中,如图3所示,若字段值为数值,所述精确字段值为精确数值。计算机设备在执行步骤s205时,可以进一步执行如下步骤:步骤s301,获取所述任一条数据行中各数据字段的数值与所述精确数值之间的差值,得到所述各数据字段对应的差值;步骤s302,获取所述精确数值分别与所述各数据字段对应的差值之间的比值,得到所述各数据字段的比值;步骤s303,基于所述各数据字段的比值,以及比值与精确性评估值之间所具有的反比关系,确定所述各数据字段的精确性评估值;步骤s304,将所述各数据字段的精确性评估值之间的平均值作为所述任一条数据行的精确性评估值。

    示例性地,当数据字段的字段值为数值时,则数据行的精确性a为:其中po是给定的数值(该给定的数值可以作为精确数值),描述的是pi与po的距离,偏离值越大,对应数据字段的精确性评估值越小。

    在一个实施例中,若字段值为文本,所述文本包括多个字符;所述精确字段值为精确文本,所述精确文本包括多个精确字符;计算机设备在执行步骤s205时,可以进一步执行如下步骤:确定所述任一条数据行中各数据字段的文本中与所述精确字符一致的字符的数量;将所述与所述精确字符一致的字符的数量与文本所包括的字符的数量之间的比值,作为对应数据字段的精确性评估值;基于所述各数据字段的精确性评估值之间的平均值,得到所述任一条数据行的精确性评估值。

    示例性地,当数据字段的字段值为文本时,数据行的精确性a为:其中v表示数据字段的文本所包括的字符数量,vi表示数据字段的文本中符合精确文本的精确字符的字符数量。其中,可以将给定的文本作为精确文本。

    在上述实施例中,若数据字段的字段值分为数值和文本,则进行不同的评估处理,可以进一步提高数据质量评估的准确性。

    在一个实施例中,所述数据字段的数值为范围型数值,所述正确数值对应为具有数值范围的正确数值范围。计算机设备在执行步骤s204时,可以进一步执行如下步骤:判断数据字段的范围型数值是否处于所述正确数值范围内;若数据字段的范围型数值处于设定的正确数值范围内,则确定对应的数据字段的正确性评估值为1;若数据字段的范围型数值不处于设定的正确数值范围内,则确定对应的数据字段的正确性评估值为0;将各数据字段的正确性评估值之间的平均值作为所述任一条数据行的正确性评估值。

    在一个实施例中,所述数据字段的数值为准确型数值。计算机设备在执行步骤s204时,可以进一步执行如下步骤:判断数据字段的准确型数值是否与所述正确数值一致;若数据字段的准确型数值与所述正确数值一致,则确定对应的数据字段的正确性评估值为1;若数据字段的准确型数值与所述正确数值不一致,则确定对应的数据字段的正确性评估值为0;将各数据字段的正确性评估值之间的平均值作为所述任一条数据行的正确性评估值。

    其中,范围型数值可以理解为对该数据字段的数值准确性要求不高,只需要处于设定的数值范围内即可(设定的数值范围可以作为正确数值范围)。而准确性数值可以理解为某些数据字段的数值准确性要求高,该数据字段的数值需要与设定的数值一致(设定的数值可以作为正确数值)。

    也就是说,上述实施例中,判断所给的数据字段的数值是否正确,是否在所给的数值范围内。将当前数据字段的数值与符合规定的数值比对,如果数值不等于规定的数值,该数据字段的正确性评估值为零;将当前数据的数值与符合规定的数值范围进行比对,如果不在数值范围内,该数据字段的正确性评估值为零。数据行的正确性评估值为:其中,

    可见,对范围型数值和准确性数值进行不同的正确性评估处理,可以提高数据质量评估的准确性。

    在一个实施例中,计算机设备在执行步骤s202时,可以进一步执行如下步骤:若所述任一条数据行在所述多条数据行中的其他条数据行重复,则确定所述任一条数据行不唯一,得到所述任一条数据行对应的唯一性评估值为0;若所述任一条数据行在所述多条数据行中的其他条数据行不重复,则确定所述任一条数据行唯一,得到所述任一条数据行对应的唯一性评估值为1。

    其中,数据行的唯一性表征当前的数据行是否与已存在的多条数据行有重复,数据行的唯一性u为:s表示字段值是否与给定的值相同。通过乘积关系,可以更加准确地表达数据行的唯一性。

    为了更好地理解上述方法,以下详细阐述一个本申请数据集的处理方法的应用实例。本应用实例可以包括数据元评估器、数据行评估器、数据集评估器和2个数据缓存组成。其处理流程如下:

    (1)数据元评估器根据数据字段属性类型对字段数值质量进行评估,唯一性:数据元评估器对数据持久化存储进行检查,判断各条数据行是否具有唯一性;正确性,数据元评估器对范围值字段、具有准确数值的字段值进行判断;精确性,评估器对当前数据值与给定的值的相似程度;完整性,评估器对字段是否为空进行判断,对所有字段都必须执行检查;时效性,评估期对当前数据产生与提交时间进行对比进行评估。

    (2)第一数据缓存用于缓存数据元评估器评估后的数据。

    (3)数据行评估器对缓存的数据进行综合评估,得到本条数据行的数据质量得分(相当于该条数据行的评估值)。

    (4)第二数据缓存用于缓存数据行评估器评估后的数据。

    (5)数据集评估器对第二缓存中的数据进行综合的评估,得到数据集的综合质量评分(相当于数据集的评估值)。

    其中,数据质量可以由评估值的大小衡量,评估值越大数据质量越高。数据质量评估是由每条数据行的评估值进行加权求平均得到。若每条数据行的评估值集合为r={r1,r2,r3…rn},则该数据集的评估值为:

    对于每条数据行的评估处理,可以包括如下步骤:

    每条数据行的数据质量是由每个数据字段的质量得分做加权而决定的,分别从正确性、精确性、完整性这几个维度衡量数据字段,从唯一性、时效性衡量整条数据行。不同的数据字段有不同的取值范围,分别运用不同的特性进行评估。设u为唯一性得分,w为正确性得分,a为精确度得分,t为时效性得分,i为完整性得分,则评价该条数据质量数学模型为:由于重复的数据对数据集是冗余的,所以出现重复数据其得分为零。

    对于唯一性、正确性、精确性、完整性和时效性,设数据行的各个数据字段集合为p={p1,p2,p3…pn},实现如下:

    ①唯一性,数据行的唯一性表征当前的数据行是否与已存在的多条数据行有重复,数据行的唯一性u为:s表示字段值是否与给定的值相同。通过乘积关系,可以更加准确地表达数据行的唯一性;

    ②正确性,用于判断所给的数据字段的数值是否正确,是否在所给的数值范围内。将当前数据字段的数值与符合规定的数值比对,如果数值不等于规定的数值,该数据字段的正确性评估值为零;将当前数据的数值与符合规定的数值范围进行比对,如果不在数值范围内,该数据字段的正确性评估值为零。数据行的正确性评估值为:其中,

    ③精确性,精确性可以表征当前数据字段的数值与给定的数值的偏差程度,或者数据字段的文字与给定的文字的偏差程度。设数据的各个数值字段集合为p={p1,p2,p3…pn},当数据字段的字段值为数值时,则数据行的精确性a为:其中po是给定的数值(该给定的数值可以作为精确数值),描述的是pi与po的距离,偏离值越大,对应数据字段的精确性评估值越小;当数据字段的字段值为文本时,数据行的精确性a为:其中v表示数据字段的文本所包括的字符数量,vi表示数据字段的文本中符合精确文本的精确字符的字符数量。其中,可以将给定的文本作为精确文本。

    ④完整性,完整性可以表征数据行的数据字段的数值中是否为空数值,完整性i:其中

    ⑤时效性,时效性用于衡量数据行从产生到使用的时间长久,时效评估值越小表示时效性越差,反之越好;若用t表征时效性评估值,那么其中t0表示当前的使用时间,t表示数据产生的时间,时间单位为天。

    本实施例,从数据元、行数据和数据集这三个维度进行数据质量的评估。数据质量由数据集的质量决定,数据集的质量由多条数据行的质量决定,数据行的质量由数据元决定。本应用实例对精确性、唯一性和时效性等多个特性进行数学建模,评估行数据质量;根据数据值评估每条数据的质量,根据每条数据的质量而评估数据集的质量情况。

    应该理解的是,虽然图1至图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1至图3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

    在一个实施例中,如图4所示,提供了一种数据集的处理装置,数据集包括多条数据行,各条数据行包括多个数据字段;所述装置包括:

    数据行获取模块401,用于获取所述多条数据行中的任一条数据行;

    唯一性评估模块402,用于根据所述任一条数据行在所述多条数据行中的唯一性,得到对应的唯一性评估值;

    时效性评估模块403,用于根据所述任一条数据行的产生时间与使用时间的比对,得到对应的时效性评估值;

    正确性评估模块404,用于判断所述任一条数据行中各数据字段的数值是否符合设定的正确数值,得到对应的正确性评估值;

    精确性评估模块405,用于根据所述任一条数据行中各数据字段的字段值与设定的精确字段值之间的偏差程度,得到对应的精确性评估值;

    完整性评估模块406,用于判断所述任一条数据行中各数据字段的数值是否为空,得到对应的完整性评估值;

    数据行评估模块407,用于获取所述任一条数据行对应的时效性评估值、正确性评估值、精确性评估值和完整性评估值之间的平均值,确定所述任一条数据行对应的唯一性评估值与所述平均值的乘积值,将所述乘积值作为所述任一条数据行的评估值;

    数据集评估模块408,用于基于所述各条数据行的评估值,确定所述数据集的评估值。

    在一个实施例中,所述字段值为数值,所述精确字段值为精确数值。精确性评估模块405,还用于获取所述任一条数据行中各数据字段的数值与所述精确数值之间的差值,得到所述各数据字段对应的差值;获取所述精确数值分别与所述各数据字段对应的差值之间的比值,得到所述各数据字段的比值;基于所述各数据字段的比值,以及比值与精确性评估值之间所具有的反比关系,确定所述各数据字段的精确性评估值;将所述各数据字段的精确性评估值之间的平均值作为所述任一条数据行的精确性评估值。

    在一个实施例中,所述字段值为文本,所述文本包括多个字符;所述精确字段值为精确文本,所述精确文本包括多个精确字符。精确性评估模块405,还用于确定所述任一条数据行中各数据字段的文本中与所述精确字符一致的字符的数量;将所述与所述精确字符一致的字符的数量与文本所包括的字符的数量之间的比值,作为对应数据字段的精确性评估值;基于所述各数据字段的精确性评估值之间的平均值,得到所述任一条数据行的精确性评估值。

    在一个实施例中,所述数据字段的数值为范围型数值,所述正确数值对应为具有数值范围的正确数值范围。所述正确性评估模块404,还用于判断数据字段的范围型数值是否处于所述正确数值范围内;若数据字段的范围型数值处于设定的正确数值范围内,则确定对应的数据字段的正确性评估值为1;若数据字段的范围型数值不处于设定的正确数值范围内,则确定对应的数据字段的正确性评估值为0;将各数据字段的正确性评估值之间的平均值作为所述任一条数据行的正确性评估值。

    在一个实施例中,所述数据字段的数值为准确型数值。所述正确性评估模块404,还用于判断数据字段的准确型数值是否与所述正确数值一致;若数据字段的准确型数值与所述正确数值一致,则确定对应的数据字段的正确性评估值为1;若数据字段的准确型数值与所述正确数值不一致,则确定对应的数据字段的正确性评估值为0;将各数据字段的正确性评估值之间的平均值作为所述任一条数据行的正确性评估值。

    在一个实施例中,所述唯一性评估模块402,还用于若所述任一条数据行在所述多条数据行中的其他条数据行重复,则确定所述任一条数据行不唯一,得到所述任一条数据行对应的唯一性评估值为0;若所述任一条数据行在所述多条数据行中的其他条数据行不重复,则确定所述任一条数据行唯一,得到所述任一条数据行对应的唯一性评估值为1。

    在一个实施例中,所述数据集评估模块408,还用于将所述各条数据行的评估值之间的平均值作为所述数据集的评估值。

    关于数据集的处理装置的具体限定可以参见上文中对于数据集的处理方法的限定,在此不再赘述。上述数据集的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

    在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据集的处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据集的处理方法。

    本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

    在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述各个方法实施例中的步骤。

    在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

    本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(staticrandomaccessmemory,sram)或动态随机存取存储器(dynamicrandomaccessmemory,dram)等。

    以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

    以上的实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。


    技术特征:

    1.一种数据集的处理方法,其特征在于,数据集包括多条数据行,各条数据行包括多个数据字段;所述方法包括:

    获取所述多条数据行中的任一条数据行;

    根据所述任一条数据行在所述多条数据行中的唯一性,得到所述任一条数据行对应的唯一性评估值;

    根据所述任一条数据行的产生时间与使用时间的比对,得到所述任一条数据行对应的时效性评估值;

    判断所述任一条数据行中各数据字段的数值是否符合设定的正确数值,得到所述任一条数据行对应的正确性评估值;

    根据所述任一条数据行中各数据字段的字段值与设定的精确字段值之间的偏差程度,得到所述任一条数据行对应的精确性评估值;

    判断所述任一条数据行中各数据字段的数值是否为空,得到所述任一条数据行对应的完整性评估值;

    获取所述任一条数据行对应的时效性评估值、正确性评估值、精确性评估值和完整性评估值之间的平均值,确定所述平均值与所述任一条数据行对应的唯一性评估值的乘积值,将所述乘积值作为所述任一条数据行的评估值;

    基于所述各条数据行的评估值,确定所述数据集的评估值。

    2.根据权利要求1所述的方法,其特征在于,所述字段值为数值,所述精确字段值为精确数值;

    所述根据所述任一条数据行中各数据字段的字段值与设定的精确字段值之间的偏差程度,得到对应的精确性评估值,包括:

    获取所述任一条数据行中各数据字段的数值与所述精确数值之间的差值,得到所述各数据字段对应的差值;

    获取所述精确数值分别与所述各数据字段对应的差值之间的比值,得到所述各数据字段的比值;

    基于所述各数据字段的比值,以及比值与精确性评估值之间所具有的反比关系,确定所述各数据字段的精确性评估值;

    将所述各数据字段的精确性评估值之间的平均值作为所述任一条数据行的精确性评估值。

    3.根据权利要求1所述的方法,其特征在于,所述字段值为文本,所述文本包括多个字符;所述精确字段值为精确文本,所述精确文本包括多个精确字符;

    所述根据所述任一条数据行中各数据字段的字段值与设定的精确字段值之间的偏差程度,得到对应的精确性评估值,包括:

    确定所述任一条数据行中各数据字段的文本中与所述精确字符一致的字符的数量;

    将所述与所述精确字符一致的字符的数量与文本所包括的字符的数量之间的比值,作为对应数据字段的精确性评估值;

    基于所述各数据字段的精确性评估值之间的平均值,得到所述任一条数据行的精确性评估值。

    4.根据权利要求1所述的方法,其特征在于,所述数据字段的数值为范围型数值,所述正确数值对应为具有数值范围的正确数值范围;

    所述判断所述任一条数据行中各数据字段的数值是否符合设定的正确数值,得到对应的正确性评估值,包括:

    判断数据字段的范围型数值是否处于所述正确数值范围内;

    若数据字段的范围型数值处于设定的正确数值范围内,则确定对应的数据字段的正确性评估值为1;

    若数据字段的范围型数值不处于设定的正确数值范围内,则确定对应的数据字段的正确性评估值为0;

    将各数据字段的正确性评估值之间的平均值作为所述任一条数据行的正确性评估值。

    5.根据权利要求1所述的方法,其特征在于,所述数据字段的数值为准确型数值;

    所述判断所述任一条数据行中各数据字段的数值是否符合设定的正确数值,得到对应的正确性评估值,包括:

    判断数据字段的准确型数值是否与所述正确数值一致;

    若数据字段的准确型数值与所述正确数值一致,则确定对应的数据字段的正确性评估值为1;

    若数据字段的准确型数值与所述正确数值不一致,则确定对应的数据字段的正确性评估值为0;

    将各数据字段的正确性评估值之间的平均值作为所述任一条数据行的正确性评估值。

    6.根据权利要求1所述的方法,其特征在于,所述根据所述任一条数据行在所述多条数据行中的唯一性,得到对应的唯一性评估值,包括:

    若所述任一条数据行在所述多条数据行中的其他条数据行重复,则确定所述任一条数据行不唯一,得到所述任一条数据行对应的唯一性评估值为0;

    若所述任一条数据行在所述多条数据行中的其他条数据行不重复,则确定所述任一条数据行唯一,得到所述任一条数据行对应的唯一性评估值为1。

    7.根据权利要求1至6任一项所述的方法,其特征在于,所述基于所述各条数据行的评估值,确定所述数据集的评估值,包括:

    将所述各条数据行的评估值之间的平均值作为所述数据集的评估值。

    8.一种数据集的处理装置,其特征在于,数据集包括多条数据行,各条数据行包括多个数据字段;所述装置包括:

    数据行获取模块,用于获取所述多条数据行中的任一条数据行;

    唯一性评估模块,用于根据所述任一条数据行在所述多条数据行中的唯一性,得到对应的唯一性评估值;

    时效性评估模块,用于根据所述任一条数据行的产生时间与使用时间的比对,得到对应的时效性评估值;

    正确性评估模块,用于判断所述任一条数据行中各数据字段的数值是否符合设定的正确数值,得到对应的正确性评估值;

    精确性评估模块,用于根据所述任一条数据行中各数据字段的字段值与设定的精确字段值之间的偏差程度,得到对应的精确性评估值;

    完整性评估模块,用于判断所述任一条数据行中各数据字段的数值是否为空,得到对应的完整性评估值;

    数据行评估模块,用于获取所述任一条数据行对应的时效性评估值、正确性评估值、精确性评估值和完整性评估值之间的平均值,确定所述任一条数据行对应的唯一性评估值与所述平均值的乘积值,将所述乘积值作为所述任一条数据行的评估值;

    数据集评估模块,用于基于所述各条数据行的评估值,确定所述数据集的评估值。

    9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。

    10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。

    技术总结
    本申请涉及数据质量评估技术领域,提供了一种数据集的处理方法、装置、计算机设备和存储介质。本申请主要从数据元、行数据和数据集三个维度进行数据质量的评估,数据质量由数据集的质量决定,数据集的质量由多条行数据的质量决定,行数据的质量由数据元决定。本申请从时效性和唯一性对数据行进行质量评估,从正确性、精确性和完整性对数据元进行质量评估,根据数据元评估每条数据行的质量,根据每条数据行的质量而评估数据集的质量情况。

    技术研发人员:关班记;劳作媚;季统凯
    受保护的技术使用者:东莞中国科学院云计算产业技术创新与育成中心
    技术研发日:2020.12.01
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-17956.html

    最新回复(0)