文本分类方法和装置、计算机可读存储介质和电子设备与流程

    专利2022-07-08  126


    本公开涉及语音识别技术,尤其是一种文本分类方法和装置、计算机可读存储介质和电子设备。
    背景技术
    :语音识别技术,也被称为自动语音识别(automaticspeechrecognition,asr),是将语音转换为计算机可读的输入形式的技术。在语音识别的过程中,将语音转换为文本后,需要对文本进行语义理解,才能够将文本转换为计算机可读的输入形式,以便进行相应操作。其中,短文本分类是语义理解的关键步骤。短文本分类,是指确定文本属于音乐、视频、天气、导航等哪个类别,例如:文本“现在给我播放青花瓷”属于音乐类别,“今天的天气”属于天气类别,等等。技术实现要素:为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种文本分类方法和装置、计算机可读存储介质和电子设备。根据本公开实施例的一个方面,提供了一种文本分类方法,包括:对待处理文本进行槽位信息标注;基于所述待处理文本标注的槽位信息,查询至少一个类别的槽位矩阵表,得到所述待处理文本的分类结果。根据本公开实施例的另一个方面,提供了一种文本分类装置,包括:标注模块,用于对待处理文本进行槽位信息标注;查询模块,用于基于所述待处理文本标注的槽位信息,查询至少一个类别的槽位矩阵表,得到所述待处理文本的分类结果。根据本公开实施例的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本公开上述任一实施例所述的文本分类方法。根据本公开实施例的再一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本公开上述任一实施例所述的文本分类方法。基于本公开上述实施例提供的文本分类方法和装置、计算机可读存储介质和电子设备,对待处理文本进行槽位信息标注,基于待处理文本标注的槽位信息,查询至少一个类别的槽位矩阵表,来得到待处理文本的分类结果,相对于对原始句子进行特征提取、再用分类模型进行分类的现有短文本分类方法,由于不存在无效信息和无效特征,也未利用分类模型进行分类,因此避免了无效信息的过拟合和输入文本分类结果的过拟合,从而提高了文本分类结果的准确性;另外,本公开实施例通过查询槽位矩阵表来得到待处理文本的分类结果,相对于利用分类模型进行分类的方式,提高了文本分类效率,使得语义理解过程的速度更快,从而提升了语义理解效率。下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。附图说明通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1是本公开所适用的场景图。图2是本公开一示例性实施例提供的文本分类方法的流程示意图。图3是本公开另一示例性实施例提供的文本分类方法的流程示意图。图4是本公开又一示例性实施例提供的文本分类方法的流程示意图。图5是本公开再一示例性实施例提供的文本分类方法的流程示意图。图6是本公开实施例中对序列标注模型进行训练的一示例性实施例的流程示意图。图7是本公开一示例性实施例提供的文本分类装置的结构示意图。图8是本公开另一示例性实施例提供的文本分类装置的结构示意图。图9是本公开一示例性实施例提供的电子设备的结构图。具体实施方式下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。申请概述在实现本发明的过程中,本发明人通过研究发现,现有的短文本分类方法,是对输入文本的原始句子进行特征提取,再用分类模型进行分类。由于输入文本中存在一些无效信息,例如,输入文本“现在给我播放青花瓷”中,“现在给我”这几个字是无效信息,如果直接对输入文本进行特征提取,便会提取到无效特征,会对分类模型的训练造成干扰,也会导致无效信息的过拟合,从而导致输入文本分类结果过拟合,使得输入文本的分类结果错误。例如,在对分类模型进行训练时,如果音乐类别的训练语料中有很多“现在给我”,例如“现在给我播放周杰伦的青花瓷”、“现在给我播放李白的静夜思”、“现在给我播放安徒生的白雪公主”,则输入文本包含“现在给我”,例如“现在给我播放李白的静夜思”,该输入文本的分类结果就会过拟合到音乐类别。本公开实施例基于有效的槽位信息(例如基于“播放”和“青花瓷”)进行分类,没有无效信息,一定程度上避免了无效信息的过拟合和输入文本分类结果的过拟合,提高了文本分类结果的准确性。示例性系统本公开实施例可以应用于与机器人、儿童玩具、音响等有语音交互的场景,也可以应用于搜索等场景。图1是本公开所适用的一个场景图。如图1所示,本公开实施例应用于语音交互场景时,由音频采集模块(例如麦克风等)采集原始音频信号,经前端信号处理模块处理后的语音,进行语音识别,得到文本信息;对文本信息进行语义理解和分类,并基于分类结果在相应类别的信息库进行搜索后输出搜索结果。例如,针对用户的语音“现在给我播放周杰伦的青花瓷”,基于本公开实施例可以分类到音乐类别,从音乐类别中搜索“周杰伦的青花瓷”并进行播放。另外,本公开实施例应用于搜索场景时,用户可以输入文本信息,例如“我要听周杰伦的歌”,服务器对该文本信息进行语义理解和分类,并基于分类结果在相应类别的信息库进行搜索后输出搜索结果,例如“我要听周杰伦的歌”被分到音乐类别,服务器在音乐信息库通过关键字“周杰伦”搜索歌曲,并返回给用户。示例性方法图2是本公开一示例性实施例提供的文本分类方法的流程示意图。本实施例可应用在电子设备上,如图2所示,本实施例的文本分类方法包括如下步骤:步骤201,对待处理文本进行槽位信息标注。其中的待处理文本,可以是用户输入的文本,例如“我要听周杰伦的歌”;或者,也可以是对用户输入的语音进行语音识别得到的文本信息。其中,用户输入的语音可以是由音频采集模块(例如麦克风等)采集的原始音频信号,也可以是该原始音频信号经前端信号处理模块处理后的语音。其中,前端信号处理模块对音频信号的处理例如可以包括但不限于:语音活动检测(voiceactivitydetection,vad)、降噪、声学回声消除(acousticechocancellaction,aec)、去混响处理、声源定位、波束形成(beamforming,bf)等。语音活动检测(voiceactivitydetection,vad)又称语音端点检测、语音边界检,是指在噪声环境中检测音频信号中语音的存在与否,准确的检测出音频信号中语音段起始位置,通常用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。步骤202,基于待处理文本标注的槽位信息,查询至少一个类别的槽位矩阵表,得到待处理文本的分类结果。基于本公开上述实施例提供的文本分类方法,对待处理文本进行槽位信息标注,基于待处理文本标注的槽位信息,查询至少一个类别的槽位矩阵表,来得到待处理文本的分类结果,相对于对原始句子进行特征提取、再用分类模型进行分类的现有短文本分类方法,不存在无效信息和无效特征,也未利用分类模型进行分类,因此避免了无效信息的过拟合和输入文本分类结果的过拟合,从而提高了文本分类结果的准确性;另外,本公开实施例通过查询槽位矩阵表来得到待处理文本的分类结果,相对于利用分类模型进行分类的方式,提高了文本分类效率,使得语义理解过程的速度更快,从而提升了语义理解效率。本公开实施例中,可以预先定义至少一个类别的槽位,例如,以音乐类别、诗歌类别、天气类别为例,举例说明针对各类别定义的槽位。如下表1所示,为针对音乐类别定义的四个槽位:表1槽位含义举例operation操作放、播放、查找、搜索、下载……music_artist歌手名周杰伦、陈奕迅……music_title歌曲名青花瓷……music_object歌歌曲、歌、儿歌……如下表2所示,为针对诗歌类别定义的四个槽位:表2槽位含义举例operation操作放、播放、查找、搜索、下载……poem_author诗词作者名李白、杜甫……poem_title诗词名静夜思、春晓……poem_object诗词诗词、诗、词……如下表3所示,为针对天气类别定义的三个槽位:表3则在图2所示实施例的步骤201中,可以是基于预先定义的槽位,标注出待处理文本的槽位。例如,对于待处理文本“刘德华的冰雨”,基于步骤201进行槽位信息标注,得到:[刘德华:music_artist]的[冰雨:music_title];又如,对于待处理文本“刘德华的歌”,基于步骤201进行槽位信息标注,得到:[刘德华:music_artist]的[歌:music_object];又如,对于待处理文本“放李白的静思夜”,基于步骤201进行槽位信息标注,得到:[放:operation][李白:poem_author]的[静思夜:poem_title];再如,对于待处理文本“播放一首诗歌吧”,基于步骤201进行槽位信息标注,得到:[播放:operation]一首[诗歌:poem_object]吧;再如,对于待处理文本“今天的天气”,基于步骤201进行槽位信息标注,得到:[今天:time]的[天气:poem_focus];再如,对于待处理文本“北京今天有雨吗”,基于步骤201进行槽位信息标注,得到:[北京:location][今天:time]有[雨:poem_focus]。在本公开上述实施例之前,可以预先定义至少一个类别的槽位矩阵表。在其中一些实施方式中,槽位矩阵表可以包括:针对所属类别定义的槽位以及属于所属类别需要满足的槽位。另外,槽位矩阵表还可以选择性地包括:不属于所属类别的槽位。例如,分别以音乐类别、诗歌列表、天气类别为例,定义音乐类别、诗歌列表、天气类别一个示例性的槽位矩阵表分别如下表4-6所示:表4槽位矩阵operationmusic_artistmusic_titlemusic_objectoperation0011music_artist0011music_title1101music_object1110表5槽位矩阵operationpoem_authorpoem_titlepoem_objectoperation0011poem_author0011poem_title1101poem_object1110表6槽位矩阵timelocationfocustime001location001focus110其中,在上述槽位矩阵表中,槽位矩阵中的数字1表示,对待处理文本标注的槽位满足该数字1所在的行、列对应的这两个槽位时,该待处理文本属于该槽位矩阵表所属的类别,对应于针对所属类别定义的槽位以及属于所属类别需要满足的槽位;槽位矩阵中的数字0表示,对待处理文本标注的槽位满足该数字0所在的行、列对应的这两个槽位时,该待处理文本不属于该槽位矩阵表所属的类别,对应于不属于所属类别的槽位。因此,上述槽位矩阵表中的槽位矩阵是对称矩阵。例如,在一个应用实例中,针对待处理文本“播放周杰伦”,进行槽位信息标注后,得到标注的槽位信息“operation=播放,artist=周杰伦”,查找槽位矩阵表,得到数字0,则待处理文本“播放周杰伦”的分类结果不属于音乐类别。在另一个应用实例中,针对待处理文本“播放周杰伦的歌”,进行槽位信息标注后,得到标注的槽位信息“operation=播放,object=歌”,查找槽位矩阵表,得到数字1,则待处理文本“播放周杰伦”的分类结果属于音乐类别。如下表7所示,为针对几个示例性待处理文本进行槽位信息标注后在音乐类别的槽位矩阵表中的对应关系,由于槽位矩阵是对称矩阵,因此,未示出另一半对称的示例性待处理文本:表7因为“播放周杰伦”这样的说法不符合说话逻辑,因此在上述应用示例中定义槽位矩阵中的元素值为0。然而,上述应用实例仅仅是对本公开实施例进行应用的一个示例性说明,本公开实施例中槽位矩阵表及其中槽位、元素值,可以根据实际需求确定,本公开实施例不对此进行限制。另外,本发明人通过研究发现,相近领域经常会出现相近的输入文本,例如“播放周杰伦的青花瓷”、“播放李白的静夜思”、“播放安徒生的白雪公主”,这三句输入文本分别属于音乐、诗歌、故事类别,但是由于都类属于对资源的点播,句式也相近,如果采用现有的短文本分类方法,对输入文本进行特征提取再用分类模型进行分类,容易分错类别。而采用本公开实施例,分别对于不同类别定义相应的槽位信息,并且只关注槽位信息进行分类,并不考虑文本的句式,所以相近领域下的相似句式的输入可以分类正确,一定程度上提高准确率。图3是本公开另一示例性实施例提供的文本分类方法的流程示意图。如图3所示,在上述图2所示实施例的基础上,步骤202可包括如下步骤:步骤2021,提取待处理文本标注的槽位信息。步骤2022,基于提取的槽位信息,查询至少一个类别的槽位矩阵表,得到待处理文本的分类结果。例如,针对待处理文本“刘德华的冰雨”,进行槽位信息标注后得到[刘德华:music_artist]的[冰雨:music_title],提取标注的槽位信息“music_artist=刘德华,music_title=冰雨”,查询至少一个类别的槽位矩阵表,可以得到该待处理文本“刘德华的冰雨”的分类结果为音乐。本公开实施例中,只考虑待处理文本标注的槽位信息,通过查询槽位矩阵表的方式即可得到待处理文本的分类结果,避免了无效信息的过拟合,提高了文本分类结果的准确性,并且,无需通过分类模型进行分类,提高了文本分类效率,使得语义理解过程的速度更快,从而提升了语义理解效率。图4是本公开又一示例性实施例提供的文本分类方法的流程示意图。如图4所示,在上述图3所示实施例的基础上,步骤2022可包括如下步骤:步骤20221,选取一个类别的槽位矩阵表作为当前槽位矩阵表,基于提取的槽位信息,确定待处理文本是否属于当前槽位矩阵表所属类别。若待处理文本属于当前槽位矩阵表所属类别,执行步骤20222;否则,若待处理文本不属于当前槽位矩阵表所属类别,执行步骤20223。步骤20222,确定待处理文本的分类结果为当前槽位矩阵表所属类别。步骤20223,选取下一个类别的槽位矩阵表作为当前槽位矩阵表,开始执行步骤20221的操作。本实施例中,逐一查询各类别槽位矩阵表,确定待处理文本是否属于当前槽位矩阵表所属类别,在待处理文本属于当前槽位矩阵表所属类别时即可输出待处理文本的分类结果,而不用等到查询完所有当前槽位矩阵表,减少了文本分类过程所需的时间,缩短了基于文本分类的应用时间,提高了用户感受。另外,在基于图4所示实施例的进一步示例性实施例中,若待处理文本不属于所有槽位矩阵表所属类别,可以确定待处理文本的分类结果为其他(other)类别,从而可以明确获知当前文本不属于定义范围内的类别。图5是本公开再一示例性实施例提供的文本分类方法的流程示意图。如图5所示,在上述图3所示实施例的基础上,步骤2022可包括如下步骤:步骤20221’,基于提取的槽位信息,查询多个类别的槽位矩阵表,确定待处理文本属于的槽位矩阵表所属类别。步骤20222’,确定待处理文本的分类结果为属于的槽位矩阵表所属类别。本实施例中,同时查询多个类别的槽位矩阵表,来确定待处理文本的分类结果,相对于逐一查询各类别槽位矩阵表的方式,进一步减少了文本分类过程所需的时间,缩短了基于文本分类的应用时间,提高了用户感受。另外,在基于图5所示实施例的进一步示例性实施例中,若待处理文本不属于所有槽位矩阵表所属类别,可以确定待处理文本的分类结果为其他(other)类别,从而可以明确获知当前文本不属于定义范围内的类别。在其中一些实施方式中,步骤201中,可以通过预先训练好的序列标注模型,对待处理文本进行槽位信息标注。在一些可选示例中,序列标注模型可以通过隐马尔可夫模型(hiddenmarkovmodel,hmm)、最大熵模型(maximumentropymodel,maxent)、条件随机场算法(conditionalrandomfieldalgorithm,crf)、神经网络等实现,其中的神经网络例如可以是卷积神经网络(cnn)、循环神经网络(rnn)等,本公开实施例对序列标注模型的实现方式不做限制。在本公开上述实施例之前,还可以包括:利用样本数据集对序列标注模型进行训练,利用训练好的序列标注模型对待处理文本进行槽位信息标注。其中,样本数据集包括至少一个类别的样本,每个样本标注有槽位信息。本实施例中,预先利用样本数据集对序列标注模型进行训练,通过训练好的序列标注模型对待处理文本进行槽位信息标注,提高了槽位信息标注的准确性和效率,从而提高了整个文本分类效率。图6是本公开实施例中对序列标注模型进行训练的一示例性实施例的流程示意图。如图6所示,该实施例对序列标注模型进行训练的过程包括以下步骤:步骤301,通过序列标注模型对样本数据集中的至少一个样本进行槽位信息标注,得到至少一个样本的预测槽位信息。步骤302,基于至少一个样本的预测槽位信息与预先标注的参考槽位信息,对序列标注模型进行训练。其中,预先标注的参考槽位信息为相对准确的槽位信息。上述图6所示实施例可以为一个迭代执行的过程。在其中一些实施方式中,可以根据至少一个样本的预测槽位信息与预先标注的参考槽位信息之间的差异对序列标注模型进行训练,直到满足训练完成条件,例如,至少一个样本的预测槽位信息与预先标注的参考槽位信息之间的差异小于预设阈值,或者对序列标注模型的训练次数达到预设次数。本公开实施例提供的任一种文本分类方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种文本分类方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种文本分类方法。下文不再赘述。示例性装置图7是本公开一示例性实施例提供的文本分类装置的结构示意图。该文本分类装置可以设置于终端设备、服务器等电子设备中,执行本公开上述任一实施例的文本分类方法。如图7所示,该文本分类装置包括:标注模块401和查询模块402。其中:标注模块401,用于对待处理文本进行槽位信息标注。查询模块402,用于基于待处理文本标注的槽位信息,查询至少一个类别的槽位矩阵表,得到待处理文本的分类结果。基于本公开上述实施例提供的文本分类装置,对待处理文本进行槽位信息标注,基于待处理文本标注的槽位信息,查询至少一个类别的槽位矩阵表,来得到待处理文本的分类结果,相对于对原始句子进行特征提取、再用分类模型进行分类的现有短文本分类方法,由于不存在无效信息和无效特征,也未利用分类模型进行分类,因此避免了无效信息的过拟合和输入文本分类结果的过拟合,提高了文本分类结果的准确性;另外,本公开实施例通过查询槽位矩阵表来得到待处理文本的分类结果,相对于利用分类模型进行分类的方式,提高了文本分类效率,使得语义理解过程的速度更快,从而提升了语义理解效率。图8是本公开另一示例性实施例提供的文本分类装置的结构示意图。如图8所示,在本公开上述图7所示实施例的基础上,该实施例的文本分类装置还包括:存储模块403,用于存储至少一个类别中各类别的槽位矩阵表,该槽位矩阵表包括:针对所属类别定义的槽位以及属于所属类别需要满足的槽位。另外,槽位矩阵表还可以选择性地包括:不属于所属类别的槽位。另外,再参见图8,在本公开又一示例性实施例提供的文本分类装置中,查询模块402包括:提取单元4021,用于提取待处理文本标注的槽位信息;查询单元4022,用于基于提取单元提取的槽位信息,查询至少一个类别的槽位矩阵表,得到待处理文本的分类结果。在其中一些实施方式中,查询单元4022可以包括:第一确定子单元,用于选取一个类别的槽位矩阵表作为当前槽位矩阵表,基于提取的槽位信息,确定待处理文本是否属于当前槽位矩阵表所属类别;若待处理文本不属于当前槽位矩阵表所属类别,选取下一个类别的槽位矩阵表作为当前槽位矩阵表,开始执行基于提取的槽位信息,确定待处理文本是否属于当前槽位矩阵表所属类别的操作;第二确定子单元,用于根据第一确定子单元的确定结果,若待处理文本属于当前槽位矩阵表所属类别,确定待处理文本的分类结果为当前槽位矩阵表所属类别;若待处理文本不属于所有槽位矩阵表所属类别,确定待处理文本的分类结果为其他类别。在其中一些实施方式中,查询单元4022可以包括:第三确定子单元,用于基于提取的槽位信息,查询多个类别的槽位矩阵表,确定待处理文本属于的槽位矩阵表所属类别;第四确定子单元,用于根据第三确定子单元的确定结果,确定待处理文本的分类结果为属于的槽位矩阵表所属类别;若待处理文本不属于所有槽位矩阵表所属类别,确定待处理文本的分类结果为其他类别。另外,再参见图8,在本公开再一示例性实施例提供的文本分类装置中,标注模块401具体通过序列标注模型实现。可选地,在本公开进一步示例性实施例的文本分类装置中,还可以包括:训练模块404,用于利用样本数据集对序列标注模型进行训练,以便利用训练好的序列标注模型对待处理文本进行槽位信息标注。其中,样本数据集包括至少一个类别的样本,每个样本标注有槽位信息。在其中一些实施方式中,序列标注模型401用于对样本数据集中的至少一个样本进行槽位信息标注,得到至少一个样本的预测槽位信息;训练模块404用于基于至少一个样本的预测槽位信息与预先标注的参考槽位信息,对序列标注模型进行训练。示例性电子设备下面,参考图9来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。图9图示了根据本公开实施例的电子设备的框图。如图9所示,电子设备包括一个或多个处理器101和存储器102。处理器101可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。存储器102可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器101可以运行所述程序指令,以实现上文所述的本公开的各个实施例的文本分类方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。在一个示例中,电子设备还可以包括:输入装置103和输出装置104,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。例如,在该电子设备是第一设备或第二设备时,该输入装置103可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置103可以是通信网络连接器,用于从第一设备和第二设备接收所采集的输入信号。此外,该输入设备103还可以包括例如键盘、鼠标等等。该输出装置104可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备104可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。当然,为了简化,图9中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。示例性计算机程序产品和计算机可读存储介质除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本分类方法中的步骤。所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c 等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本分类方法中的步骤。所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。当前第1页1 2 3 
    技术特征:

    1.一种文本分类方法,包括:

    对待处理文本进行槽位信息标注;

    基于所述待处理文本标注的槽位信息,查询至少一个类别的槽位矩阵表,得到所述待处理文本的分类结果。

    2.根据权利要求1所述的方法,其中,所述槽位矩阵表包括:针对所属类别定义的槽位以及属于所述所属类别需要满足的槽位。

    3.根据权利要求1或2所述的方法,其中,所述基于所述待处理文本标注的槽位信息,查询至少一个类别的槽位矩阵表,得到所述待处理文本的分类结果,包括:

    提取所述待处理文本标注的槽位信息;

    基于提取的槽位信息,查询至少一个类别的槽位矩阵表,得到所述待处理文本的分类结果。

    4.根据权利要求3所述的方法,其中,所述基于提取的槽位信息,查询至少一个类别的槽位矩阵表,得到所述待处理文本的分类结果,包括:

    选取一个类别的槽位矩阵表作为当前槽位矩阵表,基于提取的槽位信息,确定所述待处理文本是否属于当前槽位矩阵表所属类别;

    若所述待处理文本属于当前槽位矩阵表所属类别,确定所述待处理文本的分类结果为所述当前槽位矩阵表所属类别;

    若所述待处理文本不属于当前槽位矩阵表所属类别,选取下一个类别的槽位矩阵表作为当前槽位矩阵表,开始执行所述基于提取的槽位信息,确定所述待处理文本是否属于当前槽位矩阵表所属类别的操作。

    5.根据权利要求3所述的方法,其中,所述基于提取的槽位信息,查询至少一个类别的槽位矩阵表,得到所述待处理文本的分类结果,包括:

    基于提取的槽位信息,查询多个类别的槽位矩阵表,确定所述待处理文本属于的槽位矩阵表所属类别;

    确定所述待处理文本的分类结果为所述属于的槽位矩阵表所属类别。

    6.根据权利要求4或5所述的方法,其中,所述基于提取的槽位信息,查询至少一个类别的槽位矩阵表,得到所述待处理文本的分类结果,还包括:

    若所述待处理文本不属于所有槽位矩阵表所属类别,确定所述待处理文本的分类结果为其他类别。

    7.根据权利要求1-6任一所述的方法,其中,所述对待处理文本进行槽位信息标注,包括:

    通过序列标注模型,对待处理文本进行槽位信息标注。

    8.一种文本分类装置,包括:

    标注模块,用于对待处理文本进行槽位信息标注;

    查询模块,用于基于所述待处理文本标注的槽位信息,查询至少一个类别的槽位矩阵表,得到所述待处理文本的分类结果。

    9.根据权利要求8所述的装置,其中,还包括:

    存储模块,用于存储至少一个类别中各类别的槽位矩阵表,所述槽位矩阵表包括:针对所属类别定义的槽位以及属于所述所属类别需要满足的槽位。

    10.根据权利要求8或9所述的装置,其中,所述查询模块包括:

    提取单元,用于提取所述待处理文本标注的槽位信息;

    查询单元,用于基于所述提取单元提取的槽位信息,查询至少一个类别的槽位矩阵表,得到所述待处理文本的分类结果。

    11.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的文本分类方法。

    12.一种电子设备,所述电子设备包括:

    处理器;

    用于存储所述处理器可执行指令的存储器;

    所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7任一所述的文本分类方法。

    技术总结
    本公开实施例公开了一种文本分类方法和装置、计算机可读存储介质和电子设备,其中,文本分类方法包括:对待处理文本进行槽位信息标注;基于所述待处理文本标注的槽位信息,查询至少一个类别的槽位矩阵表,得到所述待处理文本的分类结果。本公开实施例避免了无效信息的过拟合和输入文本分类结果的过拟合,提高了文本分类结果的准确性;另外,提高了文本分类效率,使得语义理解过程的速度更快,从而提升了语义理解效率。

    技术研发人员:周蕾蕾
    受保护的技术使用者:北京地平线机器人技术研发有限公司
    技术研发日:2019.09.12
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-21647.html

    最新回复(0)