本公开涉及计算机技术领域,特别涉及文本数据降噪方法及装置、电子设备计算机可读存储介质和计算机程序。
背景技术:
在文本分析特别是文本分类需求中,由于文字本身的复杂性和文本语义的多样性,以及数据采集的多源性,文本中会存在较多的噪声干扰,这些在文本中的噪声数据,会在对该文本进行分析的过程中带来很多的干扰,也会对文本分类模型带来准确和性能的较大影响。
技术实现要素:
本公开的目的在于提供一种文本数据降噪方法及装置、电子设备计算机可读存储介质和计算机程序,进而至少在一定程度上解决上述背景技术中描述的技术问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供文本数据降噪方法,包括:获取待处理文本集合和用于表征待处理文本集合所属的类别的类别向量;确定待处理文本集合包括的文本的文本特征向量,组成文本特征向量集合;基于文本特征向量集合和类别向量,确定待处理文本集合的距离空间;基于距离空间,从文本特征向量集合中确定噪声数据,并将噪声数据对应的文本从待处理文本集合中删除。
在本公开的示例性实施例中,基于文本特征向量集合和类别向量,确定待处理文本集合的距离空间,包括:对文本特征向量集合进行聚类,得到至少两个簇;确定至少两个簇中的每个簇的质心向量;确定每个质心向量与类别向量的距离;将所得到的各个距离中的最大距离和最小距离组成的区间确定为距离空间。
在本公开的示例性实施例中,基于距离空间,从文本特征向量集合中确定噪声数据,包括:基于第一距离阈值,从至少两个簇中确定目标簇;将目标簇包括的文本特征向量确定为噪声数据。
在本公开的示例性实施例中,基于距离空间,从文本特征向量集合中确定噪声数据,还包括:基于第二距离阈值和第一距离阈值,从至少两个簇中确定待筛选簇,其中,第二距离阈值小于第一距离阈值;对待筛选簇包括的文本特征向量进行异常点检测,确定出噪声数据。
在本公开的示例性实施例中,在获取待处理文本集合和用于表征待处理文本集合所属的类别的类别向量之前,该方法还包括:获取初始文本集合;从初始文本集合中的每个文本中确定类别相关词语,其中,类别相关词语用于表征与初始文本集合所属的类别相关的词语;将初始文本集合中的每个文本对应的类别相关词语组成的文本确定为待处理文本集合包括的文本。
在本公开的示例性实施例中,在获取待处理文本集合和用于表征待处理文本集合所属的类别的类别向量之前,该方法还包括:获取待处理文本集合所属的类别对应的类别描述文本;确定类别描述文本的文本特征向量作为类别向量。
在本公开的示例性实施例中,在将噪声数据对应的文本从待处理文本集合中删除之后,该方法还包括:将删除噪声数据后的文本集合确定为样本文本集合;将样本文本包括的文本作为初始模型的输入,将预先对输入的文本进行标注的类别信息作为初始模型的期望输出,训练得到文本分类模型。
根据本公开的第二方面,提供文本数据降噪装置,包括:第一获取模块,用于获取待处理文本集合和用于表征待处理文本集合所属的类别的类别向量;第一确定模块,用于确定待处理文本集合包括的文本的文本特征向量,组成文本特征向量集合;第二确定模块,用于基于文本特征向量集合和类别向量,确定待处理文本集合的距离空间;第三确定模块,用于基于距离空间,从文本特征向量集合中确定噪声数据,并将噪声数据对应的文本从待处理文本集合中删除。
在本公开的示例性实施例中,第二确定模块包括:聚类单元,用于对文本特征向量集合进行聚类,得到至少两个簇;第一确定单元,用于确定至少两个簇中的每个簇的质心向量;第二确定单元,用于确定每个质心向量与类别向量的距离;第三确定单元,用于将所得到的各个距离中的最大距离和最小距离组成的区间确定为距离空间。
在本公开的示例性实施例中,第三确定模块包括:第四确定单元,用于基于第一距离阈值,从至少两个簇中确定目标簇;第五确定单元,用于将目标簇包括的文本特征向量确定为噪声数据。
在本公开的示例性实施例中,第三确定模块还包括:第六确定单元,用于基于第二距离阈值和第一距离阈值,从至少两个簇中确定待筛选簇,其中,第二距离阈值小于第一距离阈值;检测单元,用于对待筛选簇包括的文本特征向量进行异常点检测,确定出噪声数据。
在本公开的示例性实施例中,该装置还包括:第二获取模块,用于获取初始文本集合;第四确定模块,用于从初始文本集合中的每个文本中确定类别相关词语,其中,类别相关词语用于表征与初始文本集合所属的类别相关的词语;第五确定模块,用于将初始文本集合中的每个文本对应的类别相关词语组成的文本确定为待处理文本集合包括的文本。
在本公开的示例性实施例中,该装置还包括:第三获取模块,用于获取待处理文本集合所属的类别对应的类别描述文本;第六确定模块,用于确定类别描述文本的文本特征向量作为类别向量。
在本公开的示例性实施例中,该装置还包括:第七确定模块,用于将删除噪声数据后的文本集合确定为样本文本集合;训练模块,用于将样本文本包括的文本作为初始模型的输入,将预先对输入的文本进行标注的类别信息作为初始模型的期望输出,训练得到文本分类模型。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述的文本数据降噪方法。
根据本公开的第四方面,提供一种计算机存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现上述的文本数据降噪方法。
根据本公开的第五方面,提供一种计算机可读代码,当计算机可读代码在设备上运行时,设备中的处理器执行用于实现上述文本数据降噪方法中各步骤的指令。
由上述技术方案可知,本公开示例性实施例中的信息处理方法及装置、计算机可读存储介质、电子设备、计算机程序至少具备以下优点和积极效果:
本公开实施例中的文本数据降噪方法及装置、电子设备、计算机可读存储介质和计算机程序,通过确定待处理文本集合包括的文本的文本特征向量,组成文本特征向量集合,然后基于文本特征向量集合和类别向量,确定待处理文本集合的距离空间,基于距离空间,从文本特征向量集合中确定噪声数据,并将噪声数据对应的文本从待处理文本集合中删除,从而实现了有效地对文本数据进行降噪,提高特定类别的文本数据的纯净程度,有助于降低噪声对文本进行分析带来的干扰,提高基于降噪后的文本集合训练的文本分类模型的分类准确性。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开所适用的系统图;
图2是本公开一示例性实施例提供的文本数据降噪方法的流程示意图;
图3是本公开另一示例性实施例提供的文本数据降噪方法的流程示意图;
图4是本公开另一示例性实施例提供的文本数据降噪方法的流程示意图;
图5是本公开另一示例性实施例提供的文本数据降噪方法的流程示意图;
图6是本公开另一示例性实施例提供的文本数据降噪方法的流程示意图;
图7是本公开一示例性实施例提供的文本数据降噪装置的结构示意图;
图8是本公开另一示例性实施例提供的文本数据降噪装置的结构示意图;
图9是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
示例性系统
图1示出了可以应用本公开实施例的文本数据降噪方法或文本数据降噪装置的系统架构100的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类别,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如文本处理应用、搜索类应用、网页浏览器应用、购物类应用、即时通信工具等。
终端设备101、102、103可以是各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机、数字电影放映机等等。
服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105发送各种类别的文本。后台文本服务器可以对接收到的文本进行处理,得到处理结果(例如降噪后的文本集合)。
示例性方法
参见图2,为本公开一示例性实施例提供的文本数据降噪方法的流程图,本实施例可应用在电子设备(如图1所示的终端设备101、102、103或服务器105)上,该方法包括以下步骤:
s210,获取待处理文本集合和用于表征待处理文本集合所属的类别的类别向量。
s220,确定待处理文本集合包括的文本的文本特征向量,组成文本特征向量集合。
s230,基于文本特征向量集合和类别向量,确定待处理文本集合的距离空间。
s240,基于距离空间,从文本特征向量集合中确定噪声数据,并将噪声数据对应的文本从待处理文本集合中删除。
本公开实施方式提供的文本数据降噪方法,通过确定待处理文本集合包括的文本的文本特征向量,组成文本特征向量集合,然后基于文本特征向量集合和类别向量,确定待处理文本集合的距离空间,基于距离空间,从文本特征向量集合中确定噪声数据,并将噪声数据对应的文本从待处理文本集合中删除,从而实现了有效地对文本数据进行降噪,提高特定类别的文本数据的纯净程度,有助于降低噪声对文本进行分析带来的干扰,提高基于降噪后的文本集合训练的文本分类模型的分类准确性。
在s210中,电子设备可以从本地或从远程获取待处理文本集合和用于表征待处理文本集合所属的类别的类别向量。其中,待处理文本集合可以是各种类别的文本的集合。作为示例,待处理文本集合可以是某个行业内的企业的相关信息。例如“批发和零售业”、“科技推广和应用服务业”、“商业服务业”等行业类别,待处理文本可以是上述某种行业类别下的企业的相关信息,例如企业名称、经验范围等。
上述类别向量可以是预先对待处理文本集合所属的类别包括的文本进行分析得到的向量,该向量可以用于表征该类别的特征。
在一些可选的实现方式中,s210之前,电子设备可以基于如下步骤确定类别向量:
首先,获取待处理文本集合所属的类别对应的类别描述文本。其中,类别描述文本可以是预先设置的用于描述该类别的文本。作为示例,类别描述文本用于描述某个类别的企业的相关特征,用于对企业进行行业分类支持,类别描述文本可以包括企业名称、企业经营范围等,在企业相关的数据中,名称和经营范围最能反应企业的所属行业的特征,对每个企业的该信息进行收集,组成类别描述文本(或称为文本语料库)。
然后,确定类别描述文本的文本特征向量作为类别向量。
具体地,电子设备可以按照现有的提取文本的特征向量的方法,确定类别描述文本的特征向量。例如,可以从类别描述文本集合中提取类别特征词,确定类别特征词的词向量,在对各个词向量进行合并处理,得到文本特征向量。
本实现方式通过确定预先设置的类别描述文本的类别向量,可以使类别向量准确地表征某个类别的文本的特征,从而有助于后续使用该类别向量对待处理文本集合中的文本进行噪声分析,提高降噪的准确性。
在s220中,电子设备可以确定待处理文本集合包括的文本的文本特征向量,组成文本特征向量集合。
具体地,电子设备可以首先使用分词器对每个文本进行分词,之后使用预设的词向量模型(例如fasttext模型,word2vec模型等),训练各个词语的词向量,然后将得到的词向量通过向量叠加的方式转化为句向量作为文本特征向量,从而得到待处理文本集合中的每个文本的文本特征向量。
在s230中,电子设备可以基于文本特征向量集合和类别向量,确定待处理文本集合的距离空间。
其中,待处理文本集合的距离空间用于表征待处理文本集合中的文本与所属的类别之间的相似程度的区间。作为示例,可以将文本特征向量集合中的各个文本特征向量与类别向量之间的距离中的最大距离和最小距离组成的区间确定为距离空间。
在s240中,电子设备可以基于距离空间,从文本特征向量集合中确定噪声数据,并将噪声数据对应的文本从待处理文本集合中删除。
作为示例,电子设备可以基于距离空间,设置一个距离阈值,将大于该距离阈值的文本特征向量确定为噪声数据。
在一些可选的实现方式中,在s240之后,电子设备还可以进一步执行如下步骤:
首先,将删除噪声数据后的文本集合确定为样本文本集合。其中,样本文本集合即为对上述待处理文本集合进行降噪后的文本集合,样本文本为训练文本分类模型的训练样本。
然后,将样本文本包括的文本作为初始模型的输入,将预先对输入的文本进行标注的类别信息作为初始模型的期望输出,训练得到文本分类模型。
具体地,电子设备可以利用机器学习方法,将样本文本集合中的样本文本作为输入,将与输入的样本文本对应的类别信息作为期望输出,对初始模型(例如包括卷积神经网络、分类器等)进行训练,针对每次训练输入的样本文本,可以得到实际输出。其中,实际输出是初始模型实际输出的数据,用于表征类别信息。然后,上述执行主体可以采用梯度下降法和反向传播法,基于实际输出和期望输出,调整初始模型的参数,将每次调整参数后得到的模型作为下次训练的初始模型,并在满足预设的训练结束条件的情况下,结束训练,从而训练得到文本分类模型。
需要说明的是,这里预设的训练结束条件可以包括但不限于以下至少一项:训练时间超过预设时长;训练次数超过预设次数;利用预设的损失函数(例如交叉熵损失函数)计算所得的损失值小于预设损失值阈值。还需要说明的是,在训练时,所用到的样本文本集合的数量为至少一个,即利用至少一个类别的样本文本集合对模型进行训练,得到的文本分类模型可以识别多种类别的文本。例如,当样本文本集合所属的类别是企业的行业类别时,文本分类模型可以用于根据企业的相关信息确定企业所属的行业。
本实现方式通过使用降噪后的文本训练文本分类模型,可以降低噪声数据对模型训练的影响,从而提高了文本分类模型的分类准确性。
进一步参考图3,其示意性示出了根据本公开的另一实施例的文本数据降噪方法的流程图。在图2所示实施例的基础上,s230可以进一步包括如下步骤:
s2301,对文本特征向量集合进行聚类,得到至少两个簇。
s2302,确定至少两个簇中的每个簇的质心向量。
s2303,确定每个质心向量与类别向量的距离。
s2304,将所得到的各个距离中的最大距离和最小距离组成的区间确定为距离空间。
图3对应实施例通过对待处理文本集合进行聚类,可以根据文本的相似程度进行初步划分,为后续的降噪提供依据。此外,确定每个簇的质心向量与类别向量的距离,进而根据得到的距离确定距离空间,可以无需计算每个文本特征向量与类别向量的距离,简化了确定距离空间的步骤,有助于提高文本降噪的效率。
在s2301中,电子设备可以基于现有的各种聚类方法对文本特征向量集合进行聚类。例如,kmeans算法、dbscan算法等。其中,kmeans算法需要在开始的时候初始化要聚成的簇的个数,由于文本的复杂性,不能预先知道每个类别中包含多少类,为了尽可能地提高聚类精度,对待处理文本集合设定一个较高的簇类个数,例如20,较高的簇值会对待处理文本集合的划分较精细。这样属于同一簇类的文本基本都会归为一簇中,其他不属于该簇类的文本会归为另一簇中。
在s2302中,电子设备可以确定至少两个簇中的每个簇的质心向量。其中,确定簇的质心向量的方法是现有方法,例如,使用kmeans算法聚类时,首先指定簇的个数和每个簇的质心点(用质心向量表示),然后经过多次迭代,逐渐调整质心点,最终得到各个簇的质心向量。
在s2303中,电子设备可以确定每个质心向量与类别向量的距离。作为示例,向量之间的距离可以为欧氏距离、余弦距离等,距离越大,表示两个向量之间的相似程度越小,即簇中的文本的特征与待处理文本集合所属的类别的特征相差越大。
在s2304中,电子设备可以将所得到的各个距离中的最大距离和最小距离组成的区间确定为距离空间。
进一步参考图4,其示意性示出了根据本公开的另一实施例的文本数据降噪方法的流程图。在图2和图3所示实施例的基础上,s240可以进一步包括如下步骤:
s2401,基于第一距离阈值,从至少两个簇中确定目标簇。
s2402,将目标簇包括的文本特征向量确定为噪声数据。
图4对应实施例通过基于距离空间,确定第一距离阈值,可以同时将某个目标簇中包括的多个文本特征向量确定为噪声,提高了文本降噪的效率。
在s2401中,电子设备可以基于第一距离阈值,从至少两个簇中确定目标簇。具体地,可以从s2303中确定的各个距离中,确定大于该第一距离阈值的距离对应的簇为目标簇。其中,第一距离阈值可以基于经验人工设定,也可以基于上述距离空间确定。作为示例,可以基于预设的百分比,确定第一距离阈值。例如预设的百分比为80%,则确定距离空间包含的距离范围的80%处的距离值为第一距离阈值,即lth1=l1 (l2-l1)×80%,其中,lth1为第一距离阈值,l1和l2为上述s2303中的各个距离中的最小距离和最大距离。
在s2402中,电子设备可以将目标簇包括的文本特征向量确定为噪声数据。
进一步参考图5,其示意性示出了根据本公开的另一实施例的文本数据降噪方法的流程图。在图4所示实施例的基础上,s240还可以进一步包括如下步骤:
s2403,基于第二距离阈值和第一距离阈值,从至少两个簇中确定待筛选簇。
s2404,对待筛选簇包括的文本特征向量进行异常点检测,确定出噪声数据。
图5对应实施例,基于第一距离阈值和第二距离阈值确定待筛选簇,并对待筛选簇进行进一步地异常点检测,确定出噪声数据,从而可以在s2401-s2402对噪声数据进行初步筛选的情况下,进一步对噪声进行更精细地筛选,进一步提高了文本降噪的精确性,得到更加纯净的文本集合。
在s2403中,电子设备可以基于第二距离阈值和第一距离阈值,从至少两个簇中确定待筛选簇。其中,第二距离阈值小于第一距离阈值具体地,可以从s2303中确定的各个距离中,确定大于第二距离阈值且小于或等于第一距离阈值的距离对应的簇为待筛选簇。
第二距离阈值可以基于经验人工设定,也可以基于上述距离空间确定。作为示例,可以基于预设的百分比,确定第二距离阈值。例如预设的百分比为50%,则确定距离空间包含的距离范围的50%处的距离值为第二距离阈值,即lth2=l1 (l2-l1)×50%,其中,lth1为第一距离阈值,l1和l2为上述s2303中的各个距离中的最小距离和最大距离。在s2404中,电子设备可以对待筛选簇包括的文本特征向量进行异常点检测,确定出噪声数据。其中,异常点检测方法可以为现有方法,例如孤立森林(isolationforest)算法、一类支持向量机(oneclasssvm)算法等。其中,孤立森林算法是一个快速异常检测方法,具有线性时间复杂度和高精准度,从而可以提高噪声数据监测的效率和精确性。
进一步参考图6,其示意性示出了根据本公开的另一实施例的文本数据降噪方法的流程图。在图2所示实施例的基础上,在s210之前,还可以进一步包括如下步骤:
s610,获取初始文本集合。
s620,从初始文本集合中的每个文本中确定类别相关词语。
s630,将初始文本集合中的每个文本对应的类别相关词语组成的文本确定为待处理文本集合包括的文本。
图6对应实施例,通过对初始文本集合进行预处理,将初始文本集合中与对应的类别无关或相关程度较低的文本过滤掉,从而得到的待处理文本集合可以更加准确地表征对应的类别,有助于结合后续的步骤对原始采集的初始文本集合进行精确地降噪。
在s610中,电子设备可以从本地或从远程获取初始文本集合。其中,初始文本集合可以是从预设的文本语料库中提取的属于某个类别的文本的集合。例如,可以从某个数据库中采集某个类别的企业相关信息,包括企业名称、经营范围、对企业的描述等。
在s620中,电子设备可以从初始文本集合中的每个文本中确定类别相关词语。其中,类别相关词语用于表征与初始文本集合所属的类别相关的词语。
具体地,作为示例,当初始文本集合表示某个行业的企业的信息,电子设备可以从初始文本集合中的每个文本中提取出行业特征词作为类别相关词语。需要说明的是,从文本中提取特征词的方法是目前的现有技术,这里不再赘述。
在s630中,电子设备可以将初始文本集合中的每个文本对应的类别相关词语组成的文本确定为待处理文本集合包括的文本。
示例性装置
图7示意性示出了根据本公开的一实施例的文本数据降噪装置的结构示意图。本公开实施例提供的文本数据降噪装置可以设置在终端设备上,也可以设置在服务端上,或者部分设置在终端设备上,部分设置在服务端上,例如,可以设置在图1中的服务器105(根据实际替换),但本公开并不限定于此。
本公开实施例提供的文本数据降噪装置可以包括第一获取模块710,用于获取待处理文本集合和用于表征待处理文本集合所属的类别的类别向量;第一确定模块720,用于确定待处理文本集合包括的文本的文本特征向量,组成文本特征向量集合;第二确定模块730,用于基于文本特征向量集合和类别向量,确定待处理文本集合的距离空间;第三确定模块740,用于基于距离空间,从文本特征向量集合中确定噪声数据,并将噪声数据对应的文本从待处理文本集合中删除。
在本实施例中,第一获取模块710可以从本地或从远程获取待处理文本集合和用于表征待处理文本集合所属的类别的类别向量。其中,待处理文本集合可以是各种类别的文本的集合。作为示例,待处理文本集合可以是某个行业内的企业的相关信息。例如“批发和零售业”、“科技推广和应用服务业”、“商业服务业”等行业类别,待处理文本可以是上述某种行业类别下的企业的相关信息,例如企业名称、经验范围等。
上述类别向量可以是预先对待处理文本集合所属的类别包括的文本进行分析得到的向量,该向量可以用于表征该类别的特征。
在本实施例中,第一确定模块720可以首先使用分词器对每个文本进行分词,之后使用预设的词向量模型(例如fasttext模型,word2vec模型等),训练各个词语的词向量,然后将得到的词向量通过向量叠加的方式转化为句向量作为文本特征向量,从而得到待处理文本集合中的每个文本的文本特征向量。
在本实施例中,第二确定模块730可以基于文本特征向量集合和类别向量,确定待处理文本集合的距离空间。
其中,待处理文本集合的距离空间用于表征待处理文本集合中的文本与所属的类别之间的相似程度的区间。作为示例,可以将文本特征向量集合中的各个文本特征向量与类别向量之间的距离中的最大距离和最小距离组成的区间确定为距离空间。
在本实施例中,第三确定模块740可以基于距离空间,设置一个距离阈值,将大于该距离阈值的文本特征向量确定为噪声数据。
参照图8,图8是本公开另一示例性实施例提供的数据压缩装置的结构示意图。
在一些可选的实现方式中,第二确定模块730可以包括:聚类单元7301,用于对文本特征向量集合进行聚类,得到至少两个簇;第一确定单元7302,用于确定至少两个簇中的每个簇的质心向量;第二确定单元7303,用于确定每个质心向量与类别向量的距离;第三确定单元7304,用于将所得到的各个距离中的最大距离和最小距离组成的区间确定为距离空间。
在一些可选的实现方式中,第三确定模块740可以包括:第四确定单元7401,用于基于第一距离阈值,从至少两个簇中确定目标簇;第五确定单元7402,用于将目标簇包括的文本特征向量确定为噪声数据。
在一些可选的实现方式中,第三确定模块740还可以包括:第六确定单元7403,用于基于第二距离阈值和第一距离阈值,从至少两个簇中确定待筛选簇,其中,第二距离阈值小于第一距离阈值;检测单元7404,用于对待筛选簇包括的文本特征向量进行异常点检测,确定出噪声数据。
在一些可选的实现方式中,该装置还可以包括:第二获取模块750,用于获取初始文本集合;第四确定模块760,用于从初始文本集合中的每个文本中确定类别相关词语,其中,类别相关词语用于表征与初始文本集合所属的类别相关的词语;第五确定模块770,用于将初始文本集合中的每个文本对应的类别相关词语组成的文本确定为待处理文本集合包括的文本。
在一些可选的实现方式中,该装置还可以包括:第三获取模块780,用于获取待处理文本集合所属的类别对应的类别描述文本;第六确定模块790,用于确定类别描述文本的文本特征向量作为类别向量。
在一些可选的实现方式中,该装置还可以包括:第七确定模块7100,用于将删除噪声数据后的文本集合确定为样本文本集合;训练模块7110,用于将样本文本包括的文本作为初始模型的输入,将预先对输入的文本进行标注的类别信息作为初始模型的期望输出,训练得到文本分类模型。
本公开实施方式提供的文本数据降噪装置,通过确定待处理文本集合包括的文本的文本特征向量,组成文本特征向量集合,然后基于文本特征向量集合和类别向量,确定待处理文本集合的距离空间,基于距离空间,从文本特征向量集合中确定噪声数据,并将噪声数据对应的文本从待处理文本集合中删除,从而实现了有效地对文本数据进行降噪,提高特定类别的文本数据的纯净程度,有助于降低噪声对文本进行分析带来的干扰,提高基于降噪后的文本集合训练的文本分类模型的分类准确性。
本公开实施例提供的文本数据降噪装置中的各个模块、单元和子单元的具体实现可以参照上述文本数据降噪方法中的内容,在此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块、单元和子单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块、单元和子单元的特征和功能可以在一个模块、单元和子单元中具体化。反之,上文描述的一个模块、单元和子单元的特征和功能可以进一步划分为由多个模块、单元和子单元来具体化。
示例性电子设备
如图9所示,示例电子设备90包括用于执行软件例程的处理器901尽管为了清楚起见示出了单个处理器,但是电子设备90也可以包括多处理器系统。处理器901连接到通信基础设施902,用于与电子设备90的其他组件进行通信。通信基础设施902可以包括例如通信总线、交叉开关或网络。
电子设备90还包括诸如随机存取存储器(randomaccessmemory,ram)之类的存储器,所述存储器可包括主存储器903和辅助存储器910。辅助存储器910可以包括,例如硬盘驱动器911和/或可移动存储驱动器912,可移动存储驱动器912可以包括软盘驱动器,磁带驱动器,光盘驱动器等。可移动存储驱动器912以常规方式对可移动存储单元913进行读取和/或写入。可移动存储单元913可以包括由可移动存储驱动器912读取和写入的软盘、磁带、光盘等。相关领域技术人员可以理解,可移动存储单元913包括其上存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。
在一种可选实施方式中,辅助存储器910可以额外包括或选择性包括用于允许将计算机程序或其他指令加载到电子设备90中的其他类似装置。这样的装置可以包括例如可移动存储单元921和接口920。可移动存储单元921和接口920的示例包括:程序卡带(cartridge)和卡带接口(例如可在视频游戏控制台设备中找到的程序卡带和卡带接口)、可移动存储芯片(例如eprom或prom)和相关联的插槽、以及其他可移动存储单元921和允许软件和数据从可移动存储单元921传输到电子设备90的接口920。
电子设备90还包括至少一个通信接口940。通信接口940允许软件和数据经由通信路径941在电子设备90和外部设备之间传输。在本公开的各种实施例中,通信接口940允许数据在电子设备90和诸如公共数据或私有数据通信网络之类的数据通信网络之间传输。通信接口940可用于在不同的电子设备90之间交换数据,这些电子设备90形成互连的计算机网络的一部分。通信接口940的示例可以包括调制解调器、网络接口(诸如以太网卡)、通信端口、具有相关电路的天线等等。通信接口940可以是有线的或者可以是无线的。经由通信接口940传输的软件和数据为信号形式,该信号可以是能够被通信接口940接收的电、磁、光或其他信号。这些信号经由通信路径941被提供给通信接口。
如图9所示,电子设备90还包括显示器接口931和音频接口932,显示器接口931执行用于将图像渲染到关联的显示器930的操作,音频接口932用于执行通过关联的扬声器933播放音频内容的操作。
在本申请文件中,术语“计算机程序产品”部分程度上可以指代:可移动存储单元913、可移动存储单元921、安装在硬盘驱动器911中的硬盘、或承载着软件通过通信路径941(无线链路或电缆)到通信接口940的载波。计算机可读存储介质是指将记录的指令和/或数据提供给电子设备90以执行和/或处理的任何非暂时的有形的存储介质。这种存储介质的示例包括软盘、磁带、cd-rom、dvd、蓝光tm光盘、硬盘驱动器、rom或集成电路、usb存储器、磁光盘、或诸如pcmcia卡之类的计算机可读卡等等,这些部件无论是在电子设备90的内部还是外部均可。瞬态或非有形计算机可读传输介质也可以参与向电子设备90提供软件、应用程序、指令和/或数据,这种传输介质的示例包括无线电或红外传输信道、到另一台计算机或另一个联网设备的网络连接、以及包括电子邮件传输和记录在网站上的信息等的互联网或内联网。
计算机程序(也被称为计算机程序代码)存储在主存储器903和/或辅助存储器910中。也可以经由通信接口940来接收计算机程序。此类计算机程序在被执行时使电子设备90能够执行本文所讨论的实施例的一个或多个特征。在各种实施例中,计算机程序在被执行时,使处理器901能够执行上述实施例的特征。因此,此类计算机程序代表计算机系统90的控制器。
软件可以存储在计算机程序产品中,并使用可移动存储驱动器912、硬盘驱动器911或接口920加载到电子设备90中。替代地,可以通过通信路径941将计算机程序产品下载到计算机系统90。该软件在由处理器901执行时促使电子设备90执行本文描述的实施例的功能。
应该理解,图9的实施例仅以示例的方式给出。因此,在一些实施例中,可以省略电子设备90的一个或多个特征。而且,在一些实施例中,电子设备90的一个或多个特征可以被组合在一起。另外,在一些实施例中,电子设备90的一个或多个特征可以被分成一个或多个组成部分。
可以理解的是,图9所示的要素起到了提供执行以上实施例中所描述的服务器的各种功能和操作的途径的作用。
在一种实施方式中,服务器通常可以被描述为包括至少一个处理器和至少一个包括计算机程序代码的存储器的物理设备。所述至少一个存储器和计算机程序代码被配置为与所述至少一个处理器一起促使所述物理设备执行必要的操作。
示例性计算机可读存储介质
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图2-6所示方法的功能。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类别的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被电子设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
示例性计算机程序
本公开实施例还提供了一种计算机程序程序产品,用于存储计算机可读指令,该指令被执行时使得计算机执行上述任一可能的实现方式中的文本数据降噪方法。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中,该计算机程序产品具体体现为计算机存储介质,在另一个可选例子中,该计算机程序产品具体体现为软件产品,例如软件开发包(softwaredevelopmentkit,sdk)等等。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。
1.一种文本数据降噪方法,其特征在于,包括:
获取待处理文本集合和用于表征所述待处理文本集合所属的类别的类别向量;
确定所述待处理文本集合包括的文本的文本特征向量,组成文本特征向量集合;
基于所述文本特征向量集合和所述类别向量,确定所述待处理文本集合的距离空间;
基于所述距离空间,从所述文本特征向量集合中确定噪声数据,并将所述噪声数据对应的文本从所述待处理文本集合中删除。
2.根据权利要求1所述的方法,其特征在于,所述基于所述文本特征向量集合和所述类别向量,确定所述待处理文本集合的距离空间,包括:
对所述文本特征向量集合进行聚类,得到至少两个簇;
确定所述至少两个簇中的每个簇的质心向量;
确定所述每个质心向量与所述类别向量的距离;
将所得到的各个距离中的最大距离和最小距离组成的区间确定为所述距离空间。
3.根据权利要求2所述的方法,其特征在于,所述基于所述距离空间,从所述文本特征向量集合中确定噪声数据,包括:
基于第一距离阈值,从所述至少两个簇中确定目标簇;
将所述目标簇包括的文本特征向量确定为噪声数据。
4.根据权利要求3所述的方法,其特征在于,所述基于所述距离空间,从所述文本特征向量集合中确定噪声数据,还包括:
基于第二距离阈值和所述第一距离阈值,从所述至少两个簇中确定待筛选簇,其中,所述第二距离阈值小于所述第一距离阈值;
对所述待筛选簇包括的文本特征向量进行异常点检测,确定出噪声数据。
5.根据权利要求1所述的方法,其特征在于,在所述获取待处理文本集合和用于表征所述待处理文本集合所属的类别的类别向量之前,所述方法还包括:
获取初始文本集合;
从所述初始文本集合中的每个文本中确定类别相关词语,其中,所述类别相关词语用于表征与所述初始文本集合所属的类别相关的词语;
将所述初始文本集合中的每个文本对应的类别相关词语组成的文本确定为所述待处理文本集合包括的文本。
6.根据权利要求1所述的方法,其特征在于,在所述获取待处理文本集合和用于表征所述待处理文本集合所属的类别的类别向量之前,所述方法还包括:
获取所述待处理文本集合所属的类别对应的类别描述文本;
确定所述类别描述文本的文本特征向量作为所述类别向量。
7.根据权利要求1-6之一所述的方法,其特征在于,在所述将所述噪声数据对应的文本从所述待处理文本集合中删除之后,所述方法还包括:
将删除噪声数据后的文本集合确定为样本文本集合;
将所述样本文本包括的文本作为初始模型的输入,将预先对输入的文本进行标注的类别信息作为所述初始模型的期望输出,训练得到文本分类模型。
8.一种文本数据降噪装置,其特征在于,包括:
第一获取模块,用于获取待处理文本集合和用于表征所述待处理文本集合所属的类别的类别向量;
第一确定模块,用于确定所述待处理文本集合包括的文本的文本特征向量,组成文本特征向量集合;
第二确定模块,用于基于所述文本特征向量集合和所述类别向量,确定所述待处理文本集合的距离空间;
第三确定模块,用于基于所述距离空间,从所述文本特征向量集合中确定噪声数据,并将所述噪声数据对应的文本从所述待处理文本集合中删除。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所述的文本数据降噪方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的文本数据降噪方法。
11.一种计算机程序,包括计算机可读代码,其特征在于,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现权利要求1-7任一项所述方法中各步骤的指令。
技术总结