本发明涉及自然语言处理技术领域,特别涉及一种文本审核方法、模型、设备及存储介质。
背景技术:
手机等网络信息传播媒体的增加,更多用户参与到网络信息的传播,使信息传播速度和能力增加,为网站内容管理提出了极大挑战。当前的文本审核的模式大多为匹配模型结合人工审核的模式,通过模型对信息进行筛选,减轻人工审核压力,匹配模型主要有敏感词匹配和分类模型。其中,敏感词匹配模型主要基于符号进行匹配,但误判较多,如无法识别在敏感词中插入符号,中英夹杂,拼音文字混合等的变体敏感内容,也无法有效识别含有敏感词但并非敏感内容的句子,分类模型主要基于统计分析,存在无法给出具体评判依据、灵活性不足等缺点,总体审核能力有限。综上所述,现有技术中至少存在文本审核准确度不高、人工复审成本较高的技术问题。
技术实现要素:
有鉴于此,本发明的目的在于提供一种文本审核方法、模型、设备及存储介质,能够降低人工复审成本,提高文本审核效率及准确度。其具体方案如下:
本申请的第一方面提供了一种文本审核方法,包括:
获取敏感词表和训练集;其中,所述训练集包含训练文本以及对所述训练文本进行敏感类别标注后得到的标签信息;
构建基于机器学习算法的文本分类模型,并利用所述文本分类模型提取所述训练文本的特征信息,以得到目标语料向量;
基于所述敏感词表对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量;
利用所述目标语料向量及所述目标词汇向量对所述文本分类模型进行训练,以得到训练后的文本分类模型;
将待检测文本输入至所述训练后的文本分类模型,并基于所述训练后的文本分类模型输出的所述待检测文本的敏感类别及置信度,确定所述待检测文本的审核结果。
可选的,所述构建基于机器学习算法的文本分类模型,并利用所述文本分类模型提取所述训练文本的特征信息,以得到目标语料向量,包括:
利用激活函数为线性整流函数的文本卷积神经网络构建文本分类模型;
通过所述文本分类模型的嵌入层将所述训练文本映射为随机向量,以得到向量化文本;
利用卷积层及最大池化层提取所述向量化文本的特征信息,以得到目标语料向量。
可选的,所述基于所述敏感词表对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量,包括:
根据所述敏感词表,利用确定有穷自动机算法构建字典树;
利用所述字典树提取所述训练文本中的目标敏感词,并利用独热编码对所述目标敏感词进行处理,以得到目标词汇向量。
可选的,所述基于所述敏感词表对所述训练文本进行敏感词匹配,以得到目标词汇向量之后,还包括:
判断所述目标词汇向量的维数与所述目标语料向量的维数是否一致,如果所述目标词汇向量的维数与所述目标语料向量的维数不一致,则通过加和或点积的方式将所述目标词汇向量的维数调整至与所述目标语料向量的维数一致。
可选的,所述利用所述目标语料向量及所述目标词汇向量对所述文本分类模型进行训练,包括:
拼接所述目标语料向量和所述目标词汇向量,以得到拼接向量;
利用所述拼接向量对所述文本分类模型中的全连接层和分类器进行训练。
可选的,所述基于所述训练后的文本分类模型的输出结果确定所述待检测文本的审核结果,包括:
获取所述待检测文本对应的敏感词匹配表;所述敏感词匹配表包括所述待检测文本以及基于所述敏感词表对所述待检测文本进行敏感词匹配后得到的敏感词;
将所述训练后的文本分类模型输出的所述待检测文本的敏感类别、置信度及所述敏感词匹配表确定所述待检测文本的审核结果。
可选的,获取所述训练集包括:
利用基于所述敏感词表构建的字典树,对未进行标注的所述训练文本进行敏感词匹配,并根据匹配结果对相应的所述训练文本进行敏感类别标注,以得到包含所述训练文本及相应标签信息的所述训练集。
本申请的第二方面提供了一种文本审核模型,包括:
数据获取接口,用于获取敏感词表、训练集及待检测文本;其中,所述训练集包含训练文本以及对所述训练文本进行敏感类别标注后得到的标签信息;
文本分类模型,用于输出的所述待检测文本的敏感类别及置信度;
训练器,用于利用基于机器学习算法构建的文本分类模型提取所述训练文本的特征信息,以得到所述训练文本的目标语料向量,并基于所述敏感词表对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量,利用所述目标语料向量及所述目标词汇向量对所述文本分类模型进行训练,以得到训练后的所述文本分类模型。
本申请的第三方面提供了一种电子设备,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述文本审核方法。
本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述文本审核方法。
本申请中,先获取敏感词表和训练集,其中,所述训练集包含训练文本以及对所述训练文本进行敏感类别标注后得到的标签信息。其次利用文本分类模型提取所述训练文本的特征信息,以得到目标语料向量,并基于敏感词表对训练文本进行敏感词匹配,以得到与训练文本中的敏感词对应的目标词汇向量。然后利用目标语料向量及目标词汇向量对文本分类模型进行训练,以得到训练后的文本分类模型。最后将待检测文本输入至训练后的文本分类模型,基于训练后的文本分类模型输出的待检测文本的敏感类别及置信度,确定待检测文本的审核结果。本申请利用敏感词匹配和文本分类实现了融合模式的端到端的文本审核功能,降低人工复审成本,提高文本审核效率及准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种文本审核方法流程图;
图2为本申请提供的一种具体的文本审核方法示意图;
图3为本申请提供的一种具体的文本审核方法流程图;
图4为本申请提供的一种训练集构建示意图;
图5为本申请提供的一种文本审核模型示意图;
图6为本申请提供的一种文本审核电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前的文本审核的模式大多为匹配模型结合人工审核的模式,通过模型对信息进行筛选,减轻人工审核压力,匹配模型主要有敏感词匹配或分类模型。然而上述文本审核方法误判较多,如敏感词匹配无法识别在敏感词中插入符号,中英夹杂,拼音文字混合等的变体敏感内容,也无法有效识别含有敏感词但并非敏感内容的句子,分类模型则无法给出具体评判依据、灵活性不足等缺点,总体审核能力有限。为了克服上述技术问题,本申请提供一种文本审核方案能够降低人工复审成本,提高文本审核效率及准确度。
图1为本申请实施例提供的一种文本审核方法流程图。参见图1所示,该文本审核方法包括:
s11:获取敏感词表和训练集;其中,所述训练集包含训练文本以及对所述训练文本进行敏感类别标注后得到的标签信息。
本实施例中,首先需要获取敏感词表和训练集,所述敏感词表用来进行敏感词匹配,词表中的敏感词越全面,得到的审核结果越准确,所述敏感词表可以是包含多个类别如暴力、贪腐、民生等的综合词库,也可以根据业务需求获得对应类别的敏感词表。所述训练集用来对文本分类模型进行训练,包含训练文本以及对所述训练文本进行敏感类别标注后得到的标签信息,所述训练文本可以为句子、段落等,所述敏感类别为敏感和不敏感,可以分别用0和1表示,标注为敏感的所述训练文本为正样本,标注为不敏感的所述训练文本为负样本。所述训练文本用于构建语料向量,所述敏感词表用于构建词汇向量,基于标注语料,通过联系文本前后信息,学习词汇上下位词汇关系,提供较强的文本审核能力,并提高对简单替换模式的敏感内容检查能力。
在一种实施例中,同时提供所述敏感词表和已进行敏感类别标注的训练集,通过上述方法可以减轻系统的运行负载,需要注意的是,获取到的所述训练集中的所述训练文本的敏感类别的标注结果尽可能与所述敏感词表相互关联,也即所述训练集的构建应考虑到所述敏感词表中的敏感词。在另一种实施例中,可以仅提供所述敏感词表和训练文本,基于所述敏感词表对所述训练文本进行加工获取所述训练集,上述方法得到的训练集与所述敏感词表一脉相承,在后续步骤中获取到的所述语料向量和所述词汇向量的统一性相对较高。
s12:构建基于机器学习算法的文本分类模型,并利用所述文本分类模型提取所述训练文本的特征信息,以得到目标语料向量。
本实施例中,所述文本分类模型包括嵌入层、卷积层、池化层、全连接层及分类器,所述嵌入层、所述卷积层和所述池化层用来对向量化的所述训练文本进行特征提取。本实施例中构建的基于机器学习算法的文本分类模型是经过所述训练集进行训练的文本分类模型,所述文本分类模型中对所述训练文本进行特征提取的嵌入层、卷积层和池化层网络,也即获取所述训练文本的目标语料向量的网络可以为文本卷积网络(text-cnn)、长短时记忆网络(lstm)、门控循环单元网络(gru)等。
需要注意的是,在利用所述文本分类模型提取所述训练文本的特征信息之前,需对所述训练文本进行数据清洗,数据清洗的方法有很多种,包括但不限于对所述训练文本进行大小写转换、繁简体转换、全半角转换及停用词删除。然后利用所述文本分类模型提取所述清洗后的所述训练文本的特征信息,以得到目标语料向量,所述目标语料向量用于对所述文本分类模型中的所述全连接层和所述分类器进行训练。
s13:基于所述敏感词表对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量。
本实施例中,主要是根据所述敏感词表匹配出所述训练文本中的敏感词并进一步对所述敏感词进行向量化处理,以得到与所述训练文本中的敏感词对应的目标词汇向量,所述目标词汇向量用于对所述文本分类模型中的所述全连接层和所述分类器进行训练。本实施例利用字典树的方法对所述训练文本进行敏感词匹配其中,进一步的,采用确定有穷自动机算法(dfa,deterministicfiniteautomaton)构建所述字典树。
单独使用敏感词匹配对特征词明显的文本进行审核,提供较少的资料就可获得良好的文本审核能力,运行及部署的速度也相对较快,但对于特征词不明显如一些变体敏感的内容无法准确的进行识别,所述变体敏感的内容包括在敏感词中插入符号、中英夹杂、拼音文字混合等。同时也会存在错误的识别到了含有敏感词但并非敏感内容的句子的情况,如含有否定敏感词内容的语句,或者凑巧匹配到敏感词但并非相关联的句子,尤其在敏感词较短的情况。因此仅通过敏感词匹配的文本审核能力有限,本实施例在对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量后,结合所述训练文本的语料信息,能在很大程度上提高文本审核的准确度。
s14:利用所述目标语料向量及所述目标词汇向量对所述文本分类模型进行训练,以得到训练后的文本分类模型。
本实施例中,在对所述训练文本进行上述处理得到所述训练文本对应的所述目标语料向量和所述目标词汇向量后,将所述目标语料向量和所述目标词汇向量输入所述文本分类模型中的所述全连接层中进行训练,以便训练后的文本分类模型能直接输出待检测文本的敏感类别及对应的置信度。上述利用所述目标语料向量及所述目标词汇向量对所述文本分类模型进行训练也可称为模型聚合,所述全连接层通过随机失活(dropout)方式,减少神经元个数,降低模型过拟合率,同时通过自适应矩估计优化器(adam,adaptivemomentestimation)对采用归一化指数函数(softmax)的所述分类器输出的分类结果进行优化,以得到最终的分类,需要优化的损失函数为交叉熵。其中,softmax函数往往加在神经网络的输出层,用于将神经网络的输出结果转化为相对概率,也即所述文本分类模型对分类任务的置信度。
s15:将待检测文本输入至所述训练后的文本分类模型,并基于所述训练后的文本分类模型输出的所述待检测文本的敏感类别及置信度,确定所述待检测文本的审核结果。
本实施例中,将待检测文本输入至所述训练后的文本分类模型,所述训练后的文本分类模型首先对所述待检测文本进行特征提取以得到所述待检测文本的语料向量,然后对所述待检测文本进行敏感词匹配以得到所述待检测文本的词汇向量,最后基于所述待检测文本的语料向量和词汇向量对所述待检测文本进行审核和预测后输出所述待检测文本的敏感类别及置信度。基于所述训练后的文本分类模型输出的所述待检测文本的敏感类别及置信度,确定所述待检测文本的审核结果。
可见,本申请实施例先获取敏感词表和训练集,其中,所述训练集包含训练文本以及对所述训练文本进行敏感类别标注后得到的标签信息。其次利用文本分类模型提取所述训练文本的特征信息,以得到目标语料向量,并基于敏感词表对训练文本进行敏感词匹配,以得到与训练文本中的敏感词对应的目标词汇向量。然后利用目标语料向量及目标词汇向量对文本分类模型进行训练,以得到训练后的文本分类模型。最后将待检测文本输入至训练后的文本分类模型,基于训练后的文本分类模型输出的待检测文本的敏感类别及置信度,确定待检测文本的审核结果。本申请实施例利用敏感词匹配和文本分类实现了融合模式的端到端的文本审核功能,降低人工复审成本,提高文本审核效率及准确度。
图2为本申请实施例提供的一种具体的文本审核方法流程图。参见图2所示,该文本审核方法包括:
s21:获取敏感词表和训练集;其中,所述训练集包含训练文本以及对所述训练文本进行敏感类别标注后得到的标签信息。
本实施例中,关于上述步骤s21的具体过程,可以参考前述实施例中公开的相应内容,在此不再进行赘述。
s22:利用激活函数为线性整流函数的文本卷积神经网络构建文本分类模型。
s23:通过所述文本分类模型的嵌入层将所述训练文本映射为随机向量,以得到向量化文本;利用卷积层及最大池化层提取所述向量化文本的特征信息,以得到目标语料向量。
本实施例中,利用文本卷积神经网络构建所述文本分类模型,所述文本卷积神经网络为将卷积神经网络应用到文本分类任务中的一种网络,运行速度快,特征抽取效率高,其特点是局部连接及权值共享。具体的,通过所述文本卷积神经网络中的卷积层与最大池化层(1-maxpooling)的结合对向量化的所述训练文本进行特征提取,首先,所述文本分类模型的嵌入层将所述训练文本中的字或词通过独热编码(one-hot-coding)转化为数值,并进一步映射为128维的随机向量,以得到所述训练文本对应的向量化文本。然后,将嵌入层输出的向量化文本并行通过三个不同大小的卷积核并激活,其中所述卷积核大小分别为n*3、n*4、n*5(n为所述训练文本对应的句子的长度上限值),并使用线性整流激活函数(relu,rectifiedlinearunit)加快收敛速度,降低模型过拟合风险。最后,利用所述最大池化层将所述卷积层输出激活后的向量集串行拼接为一个向量,并对特征权重进行降维提取操作,以得到所述训练文本的目标语料向量。
s24:根据所述敏感词表,利用确定有穷自动机算法构建字典树;利用所述字典树提取所述训练文本中的目标敏感词,并利用独热编码对所述目标敏感词进行处理,以得到与所述训练文本中的敏感词对应的目标词汇向量。
本实施例中,一是通过构建字典树对所述训练文本中的敏感词进行提取,二是向量化提取结果。首先根据所述敏感词表,利用确定有穷自动机算法(dfa)构建dfa字典树,所述dfa树是一种哈希树的变种,通过查找公共前缀缩短查找距离,查找速度较快。当读取所述训练文本时,利用所述dfa树搜索和提所述取训练文本中的敏感词并对所述训练文本中的敏感词进行显示提取,以得到所述训练文本的敏感词列表,将匹配到的敏感词列表通过独热编码方式转换为数值,并进一步映射为一个或多个随机向量(具体个数与所述敏感词列表的元素个数一致),以得到与所述训练文本中的敏感词对应的目标词汇向量。
s25:判断所述目标词汇向量的维数与所述目标语料向量的维数是否一致,如果所述目标词汇向量的维数与所述目标语料向量的维数不一致,则通过加和或点积的方式将所述目标词汇向量的维数调整至与所述目标语料向量的维数一致。
s26:拼接所述目标语料向量和所述目标词汇向量,以得到拼接向量,并利用所述拼接向量对所述文本分类模型中的全连接层和分类器进行训练,以得到训练后的文本分类模型。
本实施例中,在获取到所述训练文本的目标语料向量和目标词汇向量后,为了保证所述目标语料向量和所述目标词汇向量能够进行拼接,需要使得所述目标语料向量和所述目标词汇向量的维数保持一致,因此在将所述目标语料向量和所述目标词汇向量进行拼接之前需要判断所述目标词汇向量的维数与所述目标语料向量的维数是否一致,如果所述目标词汇向量的维数与所述目标语料向量的维数不一致,则通过加和方式合并所述目标词汇向量使之维数与所述目标语料向量的维数一致,使用所述加和方式合并所述目标词汇向量是基于敏感词越多句子越偏向于敏感的假设,当然,也可以使用点积的方式替换所述加和方式,本实施例对此不做限定。通过上述方法将所述目标语料向量和所述目标词汇向量进行拼接后得到所述训练文本的拼接向量,将所述拼接向量输入所述文本分类器的全连接层进行训练,以得到训练后的文本分类模型。
s27:将待检测文本输入至所述训练后的文本分类模型,并基于所述训练后的文本分类模型输出的所述待检测文本的敏感类别及置信度,确定所述待检测文本的审核结果。
本实施例中,关于上述步骤s27的具体过程,可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例利用激活函数为线性整流函数的文本卷积神经网络构建文本分类模型,通过所述文本分类模型的嵌入层将所述训练文本进行向量化处理,然后利用卷积层及最大池化层提取向量化后的所述训练文本的特征信息,同时利用确定有穷自动机算法构建所述敏感词表的字典树以对所述训练文本中的目标敏感词进行提取,并利用独热编码对所述训练文本的特征信息和所述目标敏感词进行处理,以得到所述训练文本的目标语料向量及与所述训练文本中的敏感词对应的目标词汇向量。将待检测文本输入至利用所述训练文本和所述目标词汇向量拼接后得到的拼接向量对所述文本分类模型进行训练后得到的文本分类模型,以实现所述待检测文本的内容审核。本申请实施例利用敏感词匹配和文本分类实现了融合模式的端到端的文本审核功能,降低人工复审成本,提高文本审核效率及准确度。
图3为本申请实施例提供的一种具体的文本审核方法流程图。参见图3所示,该文本审核方法包括:
s31:获取敏感词表,并利用基于所述敏感词表构建的字典树,对未进行标注的训练文本进行敏感词匹配,并根据匹配结果对相应的所述训练文本进行敏感类别标注,以得到包含所述训练文本及相应标签信息的训练集。
本实施例中,在数据准备阶段,仅获取所述敏感词表,然后基于所述敏感词表构建字典树,并通过所述字典树检索外部的未标注文本池中未进行敏感类别标注的句子的方式,将含有所述敏感词表中的敏感词的文本标注为文本内容敏感类,将不含有所述敏感词表中的敏感词的文本标注为文本内容不敏感类,然后通过人机交互界面对标注的敏感类别进行验证和确认,当通过所述人机交互界面接收到的敏感类别与标注的敏感类别不一致时,以所述人机交互界面接收到的敏感类别为准对句子进行再标注以提升准确率。然后将再标注后的句子补充到训练集中以得到包含所述训练文本及相应标签信息的训练集,具体过程如图4所示。
s32:构建基于机器学习算法的文本分类模型,并利用所述文本分类模型提取所述训练文本的特征信息,以得到目标语料向量。
s33:基于所述敏感词表对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量。
s34:利用所述目标语料向量及所述目标词汇向量对所述文本分类模型进行训练,以得到训练后的文本分类模型。
本实施例中,关于上述步骤s32至步骤s34的具体过程,可以参考前述实施例中公开的相应内容,在此不再进行赘述。
s35:将待检测文本输入至所述训练后的文本分类模型,并获取所述待检测文本对应的敏感词匹配表;所述敏感词匹配表包括所述待检测文本以及基于所述敏感词表对所述待检测文本进行敏感词匹配后得到的敏感词。
s36:根据所述训练后的文本分类模型输出的所述待检测文本的敏感类别、置信度及所述敏感词匹配表确定所述待检测文本的审核结果。
本实施例中,在将待检测文本输入至所述训练后的文本分类模型获取所述训练后的文本分类模型输出的所述待检测文本的敏感类别、置信度的同时,进一步获取所述待检测文本对应的敏感词匹配表,所述敏感词匹配表包括所述待检测文本以及基于所述敏感词表对所述待检测文本进行敏感词匹配后得到的敏感词,可以再次基于所述敏感词表对所述待检测文本进行敏感词匹配得到所述敏感词匹配表,也可以利用所述训练后的文本分类模型直接输出所述敏感词匹配表,对照所述敏感词匹配表,对所述训练后的文本分类模型输出的所述待检测文本的敏感类别进行确认,得到所述待检测文本的最终审核结果。
可见,本申请实施例在仅提供敏感词表的情况下,利用基于所述敏感词表构建的字典树,对未进行标注的训练文本进行敏感词匹配,并根据匹配结果对相应的所述训练文本进行敏感类别标注,以得到包含所述训练文本及相应标签信息的训练集,使得所述待检测文本的语料向量和词汇向量相对统一。同时,根据所述训练后的文本分类模型输出的所述待检测文本的敏感类别、置信度及所述敏感词匹配表确定所述待检测文本的审核结果,使得审核结果有具体的评判依据,更加准确和具体。
参见图5所示,本申请实施例还相应公开了一种文本审核模型,包括:
数据获取接口11,用于获取敏感词表、训练集及待检测文本;其中,所述训练集包含训练文本以及对所述训练文本进行敏感类别标注后得到的标签信息;
文本分类模型12,用于输出的所述待检测文本的敏感类别及置信度;
训练器13,用于利用基于机器学习算法构建的文本分类模型提取所述训练文本的特征信息,以得到所述训练文本的目标语料向量,并基于所述敏感词表对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量,利用所述目标语料向量及所述目标词汇向量对所述文本分类模型进行训练,以得到训练后的所述文本分类模型。
进一步的,本申请实施例还提供了一种电子设备。图6是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图6为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的文本审核方法中的相关步骤。另外,本实施例中的电子设备20具体可以为服务器。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及文本数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量文本数据223的运算与处理,其可以是windowsserver、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的文本审核方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的各种文本信息。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的文本审核方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的文本审核方法、模型、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
1.一种文本审核方法,其特征在于,包括:
获取敏感词表和训练集;其中,所述训练集包含训练文本以及对所述训练文本进行敏感类别标注后得到的标签信息;
构建基于机器学习算法的文本分类模型,并利用所述文本分类模型提取所述训练文本的特征信息,以得到目标语料向量;
基于所述敏感词表对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量;
利用所述目标语料向量及所述目标词汇向量对所述文本分类模型进行训练,以得到训练后的文本分类模型;
将待检测文本输入至所述训练后的文本分类模型,并基于所述训练后的文本分类模型输出的所述待检测文本的敏感类别及置信度,确定所述待检测文本的审核结果。
2.根据权利要求1所述的文本审核方法,其特征在于,所述构建基于机器学习算法的文本分类模型,并利用所述文本分类模型提取所述训练文本的特征信息,以得到目标语料向量,包括:
利用激活函数为线性整流函数的文本卷积神经网络构建文本分类模型;
通过所述文本分类模型的嵌入层将所述训练文本映射为随机向量,以得到向量化文本;
利用卷积层及最大池化层提取所述向量化文本的特征信息,以得到目标语料向量。
3.根据权利要求2所述的文本审核方法,其特征在于,所述基于所述敏感词表对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量,包括:
根据所述敏感词表,利用确定有穷自动机算法构建字典树;
利用所述字典树提取所述训练文本中的目标敏感词,并利用独热编码对所述目标敏感词进行处理,以得到与所述训练文本中的敏感词对应的目标词汇向量。
4.根据权利要求3所述的文本审核方法,其特征在于,所述基于所述敏感词表对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量之后,还包括:
判断所述目标词汇向量的维数与所述目标语料向量的维数是否一致,如果所述目标词汇向量的维数与所述目标语料向量的维数不一致,则通过加和或点积的方式将所述目标词汇向量的维数调整至与所述目标语料向量的维数一致。
5.根据权利要求4所述的文本审核方法,其特征在于,所述利用所述目标语料向量及所述目标词汇向量对所述文本分类模型进行训练,包括:
拼接所述目标语料向量和所述目标词汇向量,以得到拼接向量;
利用所述拼接向量对所述文本分类模型中的全连接层和分类器进行训练。
6.根据权利要求1所述的文本审核方法,其特征在于,所述基于所述训练后的文本分类模型的输出结果确定所述待检测文本的审核结果,包括:
获取所述待检测文本对应的敏感词匹配表;所述敏感词匹配表包括所述待检测文本以及基于所述敏感词表对所述待检测文本进行敏感词匹配后得到的敏感词;
根据所述训练后的文本分类模型输出的所述待检测文本的敏感类别、置信度及所述敏感词匹配表确定所述待检测文本的审核结果。
7.根据权利要求1至6任一项所述的文本审核方法,其特征在于,获取所述训练集包括:
利用基于所述敏感词表构建的字典树,对未进行标注的所述训练文本进行敏感词匹配,并根据匹配结果对相应的所述训练文本进行敏感类别标注,以得到包含所述训练文本及相应标签信息的所述训练集。
8.一种文本审核模型,其特征在于,包括:
数据获取接口,用于获取敏感词表、训练集及待检测文本;其中,所述训练集包含训练文本以及对所述训练文本进行敏感类别标注后得到的标签信息;
文本分类模型,用于输出的所述待检测文本的敏感类别及置信度;
训练器,用于利用基于机器学习算法构建的文本分类模型提取所述训练文本的特征信息,以得到所述训练文本的目标语料向量,并基于所述敏感词表对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量,利用所述目标语料向量及所述目标词汇向量对所述文本分类模型进行训练,以得到训练后的所述文本分类模型。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的文本审核方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述的文本审核方法。
技术总结