实体分类模型训练方法、实体分类方法、装置及电子设备与流程

    专利2022-07-08  108


    本申请涉及计算机技术中的涉及知识图谱、自然语言处理、深度学习等人工智能技术领域,尤其涉及一种实体分类模型训练方法、实体分类方法、装置及电子设备。



    背景技术:

    视频语义标签技术是指利用计算机技术对视频的内容进行理解,通过自动标注不同维度标签(如实体、主题、侧面)等表现视频的核心内容。视频语义标签可应用视频推荐、搜索、媒资管理等多个场景中。不同类型视频标签中,实体是理解视频内容最重要的维度之一,也是主题、关注点等标签的重要依赖项。

    然而对于不同的行业领域,视频所关注的实体类型各不相同,目前,从一个行业(如军事)迁移到另一个行业(如教育)后,需要对迁移后的行业领域的大量数据进行标注,利用大量标注数据进行实体分类模型的训练。



    技术实现要素:

    本申请提供一种实体分类模型训练方法、实体分类方法、装置及电子设备。

    第一方面,本申请一个实施例提供一种实体分类模型训练方法,所述方法包括:

    基于通用训练样本对预训练模型进行训练,得到第一实体分类模型;

    基于第一行业领域的第一标注样本对所述预训练模型进行训练,得到第二实体分类模型;

    依据所述第二实体分类模型,从所述通用训练样本中抽取所述第一行业领域的第二训练样本;

    依据所述第二训练样本对所述第一实体分类模型进行训练,得到目标分类模型。

    在本实施例的方法中,是首先利用通用训练模型进行训练,得到第一实体分类模型,利用第一行业领域的第一标注数据进行训练得到第二实体分类模型,再利用第而实体分类模型从通用训练模型抽取第一行业领域的第二训练样本,利用其对第一实体分类模型进行重新训练,得到目标分类模型。即在训练过程中,无需对第一行业领域的大量数据进行标注后进行训练,可提高模型训练效率。

    第二方面,本申请一个实施例提供一种实体分类模型训练装置,所述装置包括:

    第一训练模块,用于基于通用训练样本对预训练模型进行训练,得到第一实体分类模型;

    第二训练模块,用于基于第一行业领域的第一标注样本对所述预训练模型进行训练,得到第二实体分类模型;

    第一抽取模块,用于依据所述第二实体分类模型,从所述通用训练样本中抽取所述第一行业领域的第二训练样本;

    第三训练模块,用于依据所述第二训练样本对所述第一实体分类模型进行训练,得到目标分类模型。

    第三方面,本申请一个实施例提供一种实体分类方法,所述方法包括:

    获取第一行业领域的待分类对象;

    基于目标分类模型对所述待分类对象进行分类,确定所述待分类对象中的第一实体分类结果;

    基于所述第一行业领域的预设实体类型,从实体识别结果中抽取与所述实体类型对应的第二实体分类结果;其中,所述实体识别结果为基于命名实体识别ner模型对所述待分类对象进行实体识别确定的实体;

    合并所述第一实体分类结果以及所述第二实体分类结果,得到所述待分类对象的目标实体分类结果。

    在本实施例的实体分类方法中,可先利用目标分类模型对待分类对象进行分类,确定所述待分类对象中的第一实体分类结果,再基于第一行业领域的预设实体类型,从实体识别结果中抽取与所述实体类型对应的第二实体分类结果,合并第一实体分类结果以及所述第二实体分类结果,得到所述待分类对象的目标实体分类结果。即结合目标分类模型确定的第一实体分类结果以及从实体识别结果中抽取与所述实体类型对应的第二实体分类结果,确定待分类对象的目标实体分类结果,可提高实体分类准确性。

    第四方面,本申请一个实施例提供一种分类装置,所述装置包括:

    第一获取模块,用于获取第一行业领域的待分类对象;

    第一分类模块,用于基于目标分类模型对所述待分类对象进行分类,确定所述待分类对象中的第一实体分类结果;

    第二抽取模块,用于基于所述第一行业领域的预设实体类型,从实体识别结果中抽取与所述实体类型对应的第二实体分类结果;其中,所述实体识别结果为基于命名实体识别ner模型对所述待分类对象进行实体识别确定的实体;

    第一合并模块,用于合并所述第一实体分类结果以及所述第二实体分类结果,得到所述待分类对象的目标实体分类结果。

    第五方面,本申请一个实施例还提供一种电子设备,包括:

    至少一个处理器;以及

    与所述至少一个处理器通信连接的存储器;其中,

    所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请各实施例提供的实体分类模型训练方法或实体分类方法。

    第六方面,本申请一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请各实施例提供的实体分类模型训练方法或实体分类方法。

    第七方面,本申请一个实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序用于使所述计算机执行本申请各实施例提供的实体分类模型训练方法或实体分类方法。

    附图说明

    附图用于更好地理解本方案,不构成对本申请的限定。其中:

    图1是本申请提供的一个实施例的实体分类模型训练方法的流程示意图;

    图2是本申请提供的一个实施例的实体分类方法的流程示意图;

    图3是一种视频语义标签技术应用场景图之一;

    图4是一种通过视频语义标签技术得到的视频语义标签结果图;

    图5是本申请的一个实施例提供的视频语义标签迁移的原理图;

    图6是本申请的一个实施例提供的实体分类模型迁移的原理图;

    图7是本申请提供的一个实施例的分类模型训练装置的结构图;

    图8是本申请提供的一个实施例的分类装置的结构图;

    图9是用来实现本申请实施例的实体分类模型训练方法或实体分类方法的电子设备的框图。

    具体实施方式

    以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

    如图1所示,根据本申请的实施例,提供一种实体分类模型训练方法,该方法包括:

    步骤s101:基于通用训练样本对预训练模型进行训练,得到第一实体分类模型。

    通用训练样本可以为通用语料样本,通用训练样本可以理解为各行业领域通用的样本,具有通用性,满足一般性行业领域需求。上述预训练模型为预训练实体分类模型,预训练实体分类模型可以理解为预先已经利用样本集(与本实施例中用于训练的样本可不同)进行训练好的语言模型。在本实施例中,利用通用训练样本对预训练模型进行训练,得到第一实体分类模型。

    步骤s102:基于第一行业领域的第一标注样本对预训练模型进行训练,得到第二实体分类模型。

    第一行业领域可以理解为迁移后的行业领域,需要将实体分类模型应用到第一行业领域进行实体分类,以提高在第一行业领域内的实体分类的准确性。从而,在本实施例模型训练过程中,可利用第一行业领域的第一标注样本对预训练模型进行训练,得到第二实体分类模型,如此,得到的第二实体分类模型更具行业领域针对性,可对第一行业领域的待分类对象进行更好的实体分类,可满足特定行业需求。作为一个示例,上述第一标注样本的量级在预设量级范围内,例如,预设量级范围可以为百量级到千量级,即第一标注样本为第一行业领域内的少量标注数据。

    步骤s103:依据第二实体分类模型,从通用训练样本中抽取第一行业领域的第二训练样本。

    由于第二实体分类模型根据第一行业领域的第一标注样本训练得到,可利用第二实体分类模型,从通用训练样本中抽取第一行业领域的第二训练样本,可使得到的第二训练样本与第一行业领域关联性增强,提高第二训练样本的精确性。

    步骤s104:依据第二训练样本对第一实体分类模型进行训练,得到目标分类模型。

    再利用与第一行业领域相关的第二训练样本对第一实体分类模型进行重新训练,得到目标分类模型,使目标分类模型更能满足第一行业领域需求,可提高目标分类模型在第一行业领域的性能。得到目标分类模型后,可将其应用实际第一行业领域中,获取第一行业领域的待分类对象,利用目标分类模型对第一行业领域的待分类对象进行实体分类,提高实体分类准确性。

    在本实施例的方法中,是首先利用通用训练模型进行训练,得到第一实体分类模型,利用第一行业领域的第一标注数据进行训练得到第二实体分类模型,再利用第而实体分类模型从通用训练模型抽取第一行业领域的第二训练样本,利用其对第一实体分类模型进行重新训练,得到目标分类模型。即在训练过程中,无需对第一行业领域的大量数据进行标注后进行训练,可提高模型训练效率。与此同时,通过第二训练样本对已通过通用训练样本训练得到的第一实体分类模型重新训练,可提高得到的目标分类模型的性能。

    在一个实施例中,基于第一行业领域的第一标注样本对预训练模型进行训练,得到第二实体分类模型之前,还包括:获取第一行业领域的第一无标注样本;对第一无标注样本进行标注,得到第一标注样本。

    利用第一标注样本对预训练模型进行训练之前,需要得到第一标注样本,首先获取第一行业领域的第一无标注样本,再对其进行标注以得到第一标注样本。标注方式有多种,在本申请实施例中不作限定,例如,可通过mark标记算法或第一行业领域专家进行标注等。

    在本实施例中,先获取第一无标注样本,再对其进行标注得到第一标注样本,通过第一标注样本对预训练模型进行训练,以提高得到的第二实体分类模型的性能。

    在一个实施例中,获取第一无标注样本之后,还包括:

    基于第一无标注样本对预训练模型进行半监督训练,得到第三实体分类模型。

    在本实施例中,不但可以利用通过对第一无标注样本进行标注后的第一标注样本进行训练得到第二实体分类模型,而且可利用第一行业领域的第一无标注样本对预训练模型进行半监督训练,得到第三实体分类模型(可以理解为第一行业领域的半监督模型),如此,不但可得到上述第二实体分类模型,以得到目标分类模型,而且可得到第三实体分类模型,用于后续的分类。即在第一实体分类模型和目标分类模型的基础上,增加了利用第一行业领域的第一无标注样本训练得到的第三实体分类模型用于分类,可提高训练后得到的模型的性能。

    在一个实施例中,基于第一无标注样本对预训练模型进行半监督训练,得到第三实体分类模型,包括:

    对第一无标注样本进行数据增强,得到第二无标注样本;

    通过第一无标注样本以及第二无标注样本,对预训练模型进行半监督训练,得到第三实体分类模型。

    在本实施例中,通过对第一无标注样本进行数据增强,结合第一无标注样本以及数据增强后的第二无标注样本进行训练,即提高训练量,从而提高第三实体分类模型的性能。

    作为一个示例,对第一无标注样本进行数据增强的方式有多种,在本申请实施例中不作限定,例如,可利用同义词库中的同义词对(包括多个单词以及多个单词对应的同义词),对第一无标注样本进行单词的同义词替换,以得到第二无标注样本。举例说明,第一无标注样本中包括“a今天上午去了b商场”,在同义词库中,包括b商场以及对应的同义词c商场,如此,可将b商场替换为c商场,得到“a今天上午去了c商场”的样本。又例如,可通过翻译方式第一无标注样本进行数据增强,即先将第一无标注样本翻译为第一语种的样本,第一无标注样本的语种与第一语种不同,然后再将翻译得到的第一语种的样本翻译成第二语种的样本,得到第二无标注样本,其中,第二语种为第一无标注样本的语种。

    在一个实施例中,基于第一行业领域的第一标注样本对预训练模型进行训练,得到第二实体分类模型,包括:

    基于知识图谱,对第一标注样本进行数据增强,得到第二标注样本;

    通过第一标注样本以及第二标注样本,对预训练模型进行训练,得到第二实体分类模型。

    知识图谱是一种揭示实体之间关系的语义网络,即可以包括多个实体以及实体之间的关系,通过知识图谱,可对第一标注样本进行实体替换,实现数据增强。例如,对于“d的老婆是f”的标注样本,其中,实体包括d、老婆和f,然而,这些实体在知识图谱中的别名分别对应为:d、妻子或媳妇、f,如此,数据增强后得到的样本可以为“d的妻子是f”或“d的媳妇是f”等。

    在本实施例中,利用知识图谱对第一标注样本进行数据增强,结合第一标注样本以及数据增强后的第二标注样本进行训练,即提高训练量,从而提高第二实体分类模型的性能。

    作为一个示例,上述知识图谱可以为第一行业领域内的知识图谱,如此,可使得到的第二标注样本与第一行业领域的关联性更强,得到的第二实体分类模型与第一行业领域的关联性更强,可提高第二实体分类模型在第一行业领域中的分类性能。

    在一个实施例中,第一实体分类模型包括第一实体标注模型和第一核心实体分类模型,第二实体分类模型包括第二实体标注模型和第二核心实体分类模型,预训练模型包括第一预训练模型和第二预训练模型;

    其中,第一实体标注模型通过通用训练样本对第一预训练模型训练得到,第一核心实体分类模型通过通用训练样本对第二预训练模型训练得到,第二实体标注模型通过第一标注样本对第一预训练模型训练得到,第二核心实体分类模型通过第一标注样本对第二预训练模型训练得到。

    实体标注模型用于进行实体标注,可以理解为序列标注模型,核心实体分类模型用于对实体标注模型标注的实体进行核心实体的识别,即识别标注的实体中哪些是核心实体。即第一核心实体分类模型的输入包括第一实体标注模型的输出,第二核心实体分类模型的输入包括第二实体标注模型的输出。通过上述第二实体分类模型,从所述通用训练样本中抽取所述第一行业领域的第二训练样本;依据所述第二训练样本对上述第一实体分类模型进行训练,得到目标分类模型,可提高目标分类模型的性能。

    需要说明的是第一预训练模型与第二预训练模型是以相同的语言模型(例如,ernie语言模型)为基础,输出层不同的模型。

    如图2所示,根据本申请的实施例,本申请提供一种实体分类方法,方法包括:

    步骤s201:获取第一行业领域的待分类对象;

    步骤s202:基于目标分类模型对待分类对象进行分类,确定待分类对象中的第一实体分类结果;

    需要说明的是,上述目标分类模型为依据第二训练样本对第一实体分类模型进行训练得到的模型,第二训练样本为依据第二实体分类模型从第一通用训练样本中抽取的第一行业领域的训练样本,第二实体分类模型基于第一行业领域的第一标注样本对预训练模型进行训练得到,第一实体分类模型基于第一通用训练样本对预训练模型进行训练得到。可以理解,本实施例中目标分类模型为上述实体分类模型训练方法实施例中的目标分类模型,在此不再赘述。

    步骤s203:基于第一行业领域的预设实体类型,从实体识别结果中抽取与实体类型对应的第二实体分类结果;

    其中,实体识别结果为基于命名实体识别ner模型对待分类对象进行实体识别确定的实体。

    在步骤s203之前,可通过ner(namedentityrecognition,命名实体识别)模型对待分类对象进行实体识别,可得到实体识别结果,且在在步骤s203之前,预先配置了第一行业领域的预设实体类型,例如,第一行业领域为教育行业,实体类型包括多种,例如,学校、老师等实体类型,可预先配置老师类型、学校类型等,即预设实体类型可以包括老师类型、学校类型等。然后可基于预设实体类型,从实体识别结果中抽取与实体类型对应的第二实体分类结果,即第二实体分类结果中包括实体类型对应的实体。例如,对于老师类型的预设实体类型,可从实体识别结果中召回老师类型的实体。

    步骤s204:合并第一实体分类结果以及第二实体分类结果,得到待分类对象的目标实体分类结果。

    第一实体分类结果和第二实体分类结果之间可能存在不同实体,可通过合并第一实体分类结果以及第二实体分类结果,得到待分类对象的目标实体分类结果,提高目标实体分类结果的准确性。作为一个示例,上述合并第一实体分类结果以及第二实体分类结果,可以是取第一实体分类结果以及第二实体分类结果的并集,消除重复,得到待分类对象的目标实体分类结果。

    在本实施例的实体分类方法中,可先利用目标分类模型对待分类对象进行分类,确定待分类对象中的第一实体分类结果,再基于第一行业领域的预设实体类型,从实体识别结果中抽取与实体类型对应的第二实体分类结果,合并第一实体分类结果以及第二实体分类结果,得到待分类对象的目标实体分类结果。即结合目标分类模型确定的第一实体分类结果以及从实体识别结果中抽取与实体类型对应的第二实体分类结果,确定待分类对象的目标实体分类结果,可提高实体分类准确性。

    作为一个示例,上述合并第一实体分类结果以及第二实体分类结果,得到待分类对象的目标实体分类结果,可以包括:在第一实体分类结果满足预设要求的情况下,合并第一实体分类结果以及第二实体分类结果,得到待分类对象的目标实体分类结果,以提高分类结果的准确性。作为一个示例,上述预设要求可以是第一实体分类结果的准确率大于预设准确率或第一实体分类结果的分类错误率小于预设错误率等。

    在一个实施例中,基于目标分类模型对待分类对象进行分类,确定待分类对象中的第一实体分类结果之后,还包括:

    在第一实体分类结果不满足预设要求的情况下,基于第二实体分类模型或第三实体分类模型对待分类对象进行分类,确定待分类对象中的第三实体分类结果;

    合并第三实体分类结果以及第二实体分类结果,得到待分类对象的目标实体分类结果。

    若第一实体分类结果不满足预设要求,表示通过目标分类模型进行分类的效果较差,此时,可利用第二实体分类模型或第三实体分类模型对待分类对象进行分类,确定待分类对象中的第三实体分类结果,并合并第三实体分类结果以及第二实体分类结果,得到待分类对象的目标实体分类结果,以提高分类效果。

    作为一个示例,合并第三实体分类结果以及第二实体分类结果,得到待分类对象的目标实体分类结果,可以是包括:取第三实体分类结果以及第二实体分类结果的并集,消除重复,得到待分类对象的目标实体分类结果。

    下面以一个具体实施例对上述实体分类模型训练的过程加以具体说明。

    视频语义标签技术是指利用计算机技术对视频的内容进行理解,通过自动标注不同维度标签(如实体、主题、侧面)等表现视频的核心内容,如图3所示。如图4所示,为通过视频语义标签技术对输入的视频进行处理,得到的视频语义标签结果。视频语义标签可应用视频推荐、搜索、媒资管理等多个场景中。不同类型视频标签中,实体是理解视频内容最重要的维度之一,也是主题、关注点等标签的重要依赖项。然而对于不同的行业,视频所关注的实体类型各不相同,需要有支持迁移的视频语义标签技术方案,从一个行业领域(如军事)迁移到另一个行业领域(如教育),以降低数据标注、模型训练等方面成本,实现快速、高效的支持迁移后的行业领域的视频标签理解的需求。

    如图5所示,为视频语义标签迁移的原理图,其中,视频语义标签技术中包括底层依赖层、基础策略层和核心实体策略层。

    其中,底层依赖层包括:

    自动语音识别(automaticspeechrecognition,asr)模块:识别视频中语言并转化为文字;

    光学字符识别(opticalcharacterrecognition,ocr)模块:识别视频中的光学文本,并转为文本;

    face模块:人脸识别模块。

    视频分类模块:视频所属类别分类。

    基础策略层包括:

    命名实体识别(ner)模块:从视频不同模态的输入中识别中实体。

    核心实体策略层包括:

    基于规则/schema的方案:通过配置schema,召回关注类型实体。

    基于推理的方案:利用知识图谱进行实体的校验和扩充。

    端到端(e2e)方案:将文本的实体抽取与核心度判定(判定核心实体)融合在一套模型之中,以预训练语言模型ernie2.0为基础,训练实体标注模型和核心实体分类模型。

    管道(pipeline)方案:先训练模型对实体进行抽取,再训练核心实体分类模型进行核心实体判定

    在迁移方案中,ner模块迁移以语言模型为基础展开,在本申请实施例中不作限定。

    对于核心实体分类迁移方案,如图6所示,图6中标记为①的方案利用已有通用训练样本(即图6中的已有样本)训练获得原始模型(即第一实体分类模型)。该方案涉及两种模型的训练,第一核心实体分类模型(即第一实体核心度判定模型)和第一实体标注模型(即第一核心实体抽取模型或第一序列标注模型)。其中,第一核心实体分类模型是以ernie(enhancedlanguagerepresentationwithinformativeentities)语言模型为基础的分类模型,第一实体标注模型是以ernie语言模型 crf(条件随机场)为基础的标注模型。两类模型利用通用领域语料训练,具有通用性。满足一般性行业需求,在面对特定行业时增加行业领域数据。

    另外,可启动图6中标记为②的方案。mark或行业专家对第一行业领域内的第一无标注样本(即图6中的领域内无标注数据)进行少量标注(百~千级),并对其进行数据增强,利用标注后的第一标注样本(即图6中领域内有标注小样本)和数据增强后的第二标注样本训练得到领域少样本模型(即第二实体分类模型)。并启动图6中标记为2.1的方案。利用领域少样本模型对已有通用训练样本进行弱监督 矫正学习(即利用领域少样本模型对通用训练样本进行样本抽取),得到第二训练样本,利用第二训练样本对原始模型重新训练,得到更新后的原始模型(即目标分类模型)。

    可选的,启动图6中标记为③的方案,结合知识图谱,对第一无标记样本进行数据增强,得到第二无标记样本,利用第一无标记样本和第二无标记样本对预训练模型进行训练得到第三实体分类模型即图6中的领域半监督模型。其中,基于知识图谱的数据增强方式通过对输入的领域内无标注数据进行消歧,得到输入中实体的别名、上位等信息进行数据的扩展。该数据增强方式相比通常的同义词或翻译方式的数据增强保持了输入的语义合理性。例如,输入:【d的老婆是f】,消歧实体:【d】、【老婆】、【f】,实体在知识图谱中的别名分别为:【d】、【妻子、媳妇】、【f】,数据增强后的样本可以为:【d的妻子是f】,传统的同义词替换数据增强方式则可能将【d】替换成为【e】,无法保证数据增强前后的语义实事的一致性。

    范式(schma)/字典配置方案:通过配置不同行业视频schema,调控召回实体。例如,军事行业关注军事类节目、军事电视剧、军事电影、军事人物、军事活动、军事武器等类型实体。

    通过本申请实施例的实体分类模型训练方法得到的目标分类模型,可应用于面向不同行业领域(如:教育、军事、医疗、金融等行业领域)的视频内容理解等应用场景中,也可以用于视频推荐、搜索以及媒资源管理等应用场景中,上述实体分类模型训练方法和实体分类方法均可应用于上述应用场景中,上述待分类对象可以是在具体的实际的应用场景下的待分类对象。

    综上,本申请实施例的方法,实体分类模型的领域迁移技术无需人工审核,在领域内进行小批量数据标注,降低迁移成本、提高迁移效率以及迁移性较强,且基于知识图谱的数据增强技术可以保证数据增强前后的语义和逻辑一致性,避免了传统的同义词替换的数据增强方案中前后语义不一致性的问题。

    如图7所示,根据本申请的实施例,本申请还提供一种实体分类模型训练装置700,装置700包括:

    第一训练模块701,用于基于通用训练样本对预训练模型进行训练,得到第一实体分类模型;

    第二训练模块702,用于基于第一行业领域的第一标注样本对预训练模型进行训练,得到第二实体分类模型;

    第一抽取模块703,用于依据第二实体分类模型,从通用训练样本中抽取第一行业领域的第二训练样本;

    第三训练模块704,用于依据第二训练样本对第一实体分类模型进行训练,得到目标分类模型。

    在一个实施例中,装置700,还包括:

    样本获取模块,用于在第二训练模块执行基于第一行业领域的第一标注样本对预训练模型进行训练,得到第二实体分类模型之前,获取第一行业领域的第一无标注样本;

    标注模块,用于对第一无标注样本进行标注,得到第一标注样本。

    在一个实施例中,装置700,还包括:

    第四训练模块,用于在样本获取模块执行获取第一无标注样本之后,基于第一无标注样本对预训练模型进行半监督训练,得到第三实体分类模型。

    在一个实施例中,第四训练模块,包括:

    第一数据增强模块,用于对第一无标注样本进行数据增强,得到第二无标注样本;

    第一训练子模块,用于通过第一无标注样本以及第二无标注样本,对预训练模型进行半监督训练,得到第三实体分类模型。

    在一个实施例中,第二训练模块,包括:

    第二数据增强模块,用于基于知识图谱,对第一标注样本进行数据增强,得到第二标注样本;

    第二训练子模块,用于通过第一标注样本以及第二标注样本,对预训练模型进行训练,得到第二实体分类模型。

    在一个实施例中,第一实体分类模型包括第一实体标注模型和第一核心实体分类模型,第二实体分类模型包括第二实体标注模型和第二核心实体分类模型,预训练模型包括第一预训练模型和第二预训练模型;

    其中,第一实体标注模型通过通用训练样本对第一预训练模型训练得到,第一核心实体分类模型通过通用训练样本对第二预训练模型训练得到,第二实体标注模型通过第一标注样本对第一预训练模型训练得到,第二核心实体分类模型通过第一标注样本对第二预训练模型训练得到。

    上述各实施例的实体分类模型训练装置为实现上述各实施例的实体分类模型训练方法的装置,技术特征对应,技术效果对应,在此不再赘述。

    如图8所示,根据本申请的实施例,本申请还提供一种分类装置800,装置800包括:

    第一获取模块801,用于获取第一行业领域的待分类对象;

    第一分类模块802,用于基于目标分类模型对待分类对象进行分类,确定待分类对象中的第一实体分类结果;

    第二抽取模块803,用于基于第一行业领域的预设实体类型,从实体识别结果中抽取与实体类型对应的第二实体分类结果;其中,实体识别结果为基于命名实体识别ner模型对待分类对象进行实体识别确定的实体;

    第一合并模块804,用于合并第一实体分类结果以及第二实体分类结果,得到待分类对象的目标实体分类结果。

    在一个实施例中,装置800,还包括:

    第二分类模块,用于在第一分类模块执行基于目标分类模型对待分类对象进行分类,确定待分类对象中的第一实体分类结果之后,在第一实体分类结果不满足预设要求的情况下,基于第二实体分类模型或第三实体分类模型对待分类对象进行分类,确定待分类对象中的第三实体分类结果;

    第二合并模块,用于合并第三实体分类结果以及第二实体分类结果,得到待分类对象的目标实体分类结果。

    上述各实施例的分类装置为实现上述各实施例的实体分类方法的装置,技术特征对应,技术效果对应,在此不再赘述。

    根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

    如图9所示,是根据本申请实施例的实体分类模型训练方法或实体分类方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

    如图9所示,该电子设备包括:一个或多个处理器901、存储器902,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gum的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

    存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的实体分类模型训练方法或实体分类方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的实体分类模型训练方法或实体分类方法。

    本申请实施例的计算机程序产品,包括计算机程序,所述计算机程序用于使计算机执行本申请各实施例提供的实体分类模型训练方法或实体分类方法。

    存储器902作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的实体分类模型训练方法对应的程序指令/模块(例如,附图7所示的第一训练模块701、第二训练模块702、第一抽取模块703、第三训练模块704),或者如本申请实施例中的实体分类方法对应的程序指令/模块(例如,附图8所示的第一获取模块801、第一分类模块802、第二抽取模块803、第一合并模块804)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的实体分类模型训练方法或实体分类方法。

    存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据键盘显示的电子设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至键盘显示的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

    实体分类模型训练方法或实体分类方法的电子设备还可以包括:输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接,图9中以通过总线连接为例。

    输入装置903可接收输入的数字或字符信息,以及产生与键盘显示的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

    此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asmc(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

    这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

    为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

    可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

    计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

    根据本申请实施例的实体分类模型训练方案,基于通用训练样本对预训练模型进行训练,得到第一实体分类模型;基于第一行业领域的第一标注样本对预训练模型进行训练,得到第二实体分类模型;依据第二实体分类模型,从通用训练样本中抽取第一行业领域的第二训练样本;依据第二训练样本对第一实体分类模型进行训练,得到目标分类模型。即在训练过程中,无需对第一行业领域的大量数据进行标注后进行训练,可提高模型训练效率。。

    应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

    上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。


    技术特征:

    1.一种实体分类模型训练方法,所述方法包括:

    基于通用训练样本对预训练模型进行训练,得到第一实体分类模型;

    基于第一行业领域的第一标注样本对所述预训练模型进行训练,得到第二实体分类模型;

    依据所述第二实体分类模型,从所述通用训练样本中抽取所述第一行业领域的第二训练样本;

    依据所述第二训练样本对所述第一实体分类模型进行训练,得到目标分类模型。

    2.根据权利要求1所述的方法,所述基于第一行业领域的第一标注样本对所述预训练模型进行训练,得到第二实体分类模型之前,还包括:

    获取所述第一行业领域的第一无标注样本;

    对所述第一无标注样本进行标注,得到所述第一标注样本。

    3.根据权利要求2所述的方法,所述获取第一无标注样本之后,还包括:

    基于所述第一无标注样本对所述预训练模型进行半监督训练,得到第三实体分类模型。

    4.根据权利要求3所述的方法,所述基于所述第一无标注样本对所述预训练模型进行半监督训练,得到第三实体分类模型,包括:

    对所述第一无标注样本进行数据增强,得到第二无标注样本;

    通过所述第一无标注样本以及所述第二无标注样本,对所述预训练模型进行半监督训练,得到所述第三实体分类模型。

    5.根据权利要求1所述的方法,所述基于第一行业领域的第一标注样本对所述预训练模型进行训练,得到第二实体分类模型,包括:

    基于知识图谱,对所述第一标注样本进行数据增强,得到第二标注样本;

    通过所述第一标注样本以及所述第二标注样本,对所述预训练模型进行训练,得到所述第二实体分类模型。

    6.根据权利要求1所述的方法,所述第一实体分类模型包括第一实体标注模型和第一核心实体分类模型,所述第二实体分类模型包括第二实体标注模型和第二核心实体分类模型,所述预训练模型包括第一预训练模型和第二预训练模型;

    其中,所述第一实体标注模型通过所述通用训练样本对所述第一预训练模型训练得到,所述第一核心实体分类模型通过所述通用训练样本对所述第二预训练模型训练得到,所述第二实体标注模型通过所述第一标注样本对所述第一预训练模型训练得到,所述第二核心实体分类模型通过所述第一标注样本对所述第二预训练模型训练得到。

    7.一种实体分类方法,所述方法包括:

    获取第一行业领域的待分类对象;

    基于目标分类模型对所述待分类对象进行分类,确定所述待分类对象中的第一实体分类结果;

    基于所述第一行业领域的预设实体类型,从实体识别结果中抽取与所述实体类型对应的第二实体分类结果;其中,所述实体识别结果为基于命名实体识别ner模型对所述待分类对象进行实体识别确定的实体;

    合并所述第一实体分类结果以及所述第二实体分类结果,得到所述待分类对象的目标实体分类结果。

    8.根据权利要求7所述的方法,所述基于目标分类模型对所述待分类对象进行分类,确定所述待分类对象中的第一实体分类结果之后,还包括:

    在所述第一实体分类结果不满足预设要求的情况下,基于所述第二实体分类模型或第三实体分类模型对所述待分类对象进行分类,确定所述待分类对象中的第三实体分类结果;

    合并所述第三实体分类结果以及所述第二实体分类结果,得到所述待分类对象的目标实体分类结果。

    9.一种实体分类模型训练装置,所述装置包括:

    第一训练模块,用于基于通用训练样本对预训练模型进行训练,得到第一实体分类模型;

    第二训练模块,用于基于第一行业领域的第一标注样本对所述预训练模型进行训练,得到第二实体分类模型;

    第一抽取模块,用于依据所述第二实体分类模型,从所述通用训练样本中抽取所述第一行业领域的第二训练样本;

    第三训练模块,用于依据所述第二训练样本对所述第一实体分类模型进行训练,得到目标分类模型。

    10.根据权利要求9所述的装置,还包括:

    样本获取模块,用于在所述第二训练模块执行基于第一行业领域的第一标注样本对所述预训练模型进行训练,得到第二实体分类模型之前,获取所述第一行业领域的第一无标注样本;

    标注模块,用于对所述第一无标注样本进行标注,得到所述第一标注样本。

    11.根据权利要求10所述的装置,还包括:

    第四训练模块,用于在所述样本获取模块执行获取第一无标注样本之后,基于所述第一无标注样本对所述预训练模型进行半监督训练,得到第三实体分类模型。

    12.根据权利要求11所述的装置,所述第四训练模块,包括:

    第一数据增强模块,用于对所述第一无标注样本进行数据增强,得到第二无标注样本;

    第一训练子模块,用于通过所述第一无标注样本以及所述第二无标注样本,对所述预训练模型进行半监督训练,得到所述第三实体分类模型。

    13.根据权利要求9所述的装置,所述第二训练模块,包括:

    第二数据增强模块,用于基于知识图谱,对所述第一标注样本进行数据增强,得到第二标注样本;

    第二训练子模块,用于通过所述第一标注样本以及所述第二标注样本,对所述预训练模型进行训练,得到所述第二实体分类模型。

    14.根据权利要求9所述的装置,所述第一实体分类模型包括第一实体标注模型和第一核心实体分类模型,所述第二实体分类模型包括第二实体标注模型和第二核心实体分类模型,所述预训练模型包括第一预训练模型和第二预训练模型;

    其中,所述第一实体标注模型通过所述通用训练样本对所述第一预训练模型训练得到,所述第一核心实体分类模型通过所述通用训练样本对所述第二预训练模型训练得到,所述第二实体标注模型通过所述第一标注样本对所述第一预训练模型训练得到,所述第二核心实体分类模型通过所述第一标注样本对所述第二预训练模型训练得到。

    15.一种实体分类装置,所述装置包括:

    第一获取模块,用于获取第一行业领域的待分类对象;

    第一分类模块,用于基于目标分类模型对所述待分类对象进行分类,确定所述待分类对象中的第一实体分类结果;

    第二抽取模块,用于基于所述第一行业领域的预设实体类型,从实体识别结果中抽取与所述实体类型对应的第二实体分类结果;其中,所述实体识别结果为基于命名实体识别ner模型对所述待分类对象进行实体识别确定的实体;

    第一合并模块,用于合并所述第一实体分类结果以及所述第二实体分类结果,得到所述待分类对象的目标实体分类结果。

    16.根据权利要求15所述的装置,还包括:

    第二分类模块,用于在所述第一分类模块执行所述基于目标分类模型对所述待分类对象进行分类,确定所述待分类对象中的第一实体分类结果之后,在所述第一实体分类结果不满足预设要求的情况下,基于所述第二实体分类模型或第三实体分类模型对所述待分类对象进行分类,确定所述待分类对象中的第三实体分类结果;

    第二合并模块,用于合并所述第三实体分类结果以及所述第二实体分类结果,得到所述待分类对象的目标实体分类结果。

    17.一种电子设备,包括:

    至少一个处理器;以及

    与所述至少一个处理器通信连接的存储器;其中,

    所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6中任一所述的实体分类模型训练方法或如权利要求7-8中任一所述实体分类方法。

    18.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如权利要求1-6中任一所述的实体分类模型训练方法或如权利要求7-8中任一所述实体分类方法。

    19.一种计算机程序产品,包括计算机程序,所述计算机程序用于使所述计算机执行如权利要求1-6中任一所述的实体分类模型训练方法或如权利要求7-8中任一所述实体分类方法。

    技术总结
    本申请公开了一种实体分类模型训练方法、实体分类方法、装置及电子设备,涉及知识图谱、自然语言处理、深度学习等人工智能技术领域。具体实现方案为:基于通用训练样本对预训练模型进行训练,得到第一实体分类模型;基于第一行业领域的第一标注样本对预训练模型进行训练,得到第二实体分类模型;依据第二实体分类模型,从通用训练样本中抽取第一行业领域的第二训练样本;依据第二训练样本对第一实体分类模型进行训练,得到目标分类模型。即在训练过程中,无需对第一行业领域的大量数据进行标注后进行训练,可提高模型训练效率。

    技术研发人员:杨虎;汪琦;冯知凡;柴春光;朱勇
    受保护的技术使用者:北京百度网讯科技有限公司
    技术研发日:2020.11.27
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-20025.html

    最新回复(0)