关键词的确定方法和相关设备与流程

    专利2022-07-08  73


    本发明涉及自然语言处理技术领域,更具体的,是一种关键词的确定方法和相关设备。



    背景技术:

    现如今,信息的表达方式随着信息时代的发展而日益多样,其中利用文本的方式可以更为直观地表达信息。对于文本而言,关键词是文本主题信息的提炼,可以高度概括文本的主要内容,能够帮助用户快速了解文本内容。由于文本信息的数量过于庞大,故关键词确定方法显得尤为重要。

    目前的一种关键词确定方法是,首先使用预先设置的词典对文本进行分词操作,然后基于分词结果使用关键词确定算法如基于词频-逆文档频率(tf-idf)的统计算法、文本排序(textrank)算法、词语熵算法等,在分词结果中确定关键词。但是,上述关键词确定方法所得到的关键词通常在2-3字,无法准确地确定出的关键词。



    技术实现要素:

    为实现上述目的,本发明实施例提供如下技术方案:

    第一方面,本发明提供了一种关键词的确定方法,包括:

    获得多个不同聚类的文档集合;

    将任一聚类的文档集合作为当前聚类的文档集合,执行下述关键词确定操作:

    按照多种不同的切分长度,对所述当前聚类的文档集合包含的各个文档进行词语切分,以得到多种不同字数长度的词语;

    计算各个词语在所述多个不同聚类的文档集合中的出现频率得分;

    基于词语的字数长度,计算各个词语的长度权重得分;其中所述长度权重得分用于表示词语的字数长度对于词语被确定为关键词的影响程度;

    基于出现频率得分以及长度权重得分计算各个词语的综合得分;

    根据各个词语的综合得分确定所述当前聚类的文档集合的关键词。

    第二方面,本发明提供了一种关键词的确定装置,包括:

    获取单元,用于获得多个不同聚类的文档集合;

    执行单元,用于将任一聚类的文档集合作为当前聚类的文档集合,执行下述关键词确定操作:

    按照多种不同的切分长度,对所述当前聚类的文档集合包含的各个文档进行词语切分,以得到多种不同字数长度的词语;

    计算各个词语在所述多个不同聚类的文档集合中的出现频率得分;

    基于词语的字数长度,计算各个词语的长度权重得分;其中所述长度权重得分用于表示词语的字数长度对于词语被确定为关键词的影响程度;

    基于出现频率得分以及长度权重得分计算各个词语的综合得分;

    将综合得分排序在前的预设数量的词语确定为所述当前聚类的文档集合的关键词。

    第三方面,本发明提供了一种存储介质,其上存储有程序,所述程序被处理器执行时实现上述的关键词的确定方法。

    第四方面,本发明提供了一种关键词的确定设备,包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述的关键词的确定方法。

    与现有技术相比,本发明包括以下优点:

    本发明提供了一种关键词的确定方法,该方法可以获得多个不同聚类的文档集合,并按照多种不同的切分长度,对任一聚类的文档集合包含的各个文档进行词语切分,以得到多种不同字数长度的词语,通过计算得到各个词语的出现频率得分、长度权重得分和综合得分,并将综合得分排序在前的预设数量的词语确定为任一聚类的文档集合的关键词。在本发明中,对文档进行词语切分可以得到多种不同字数长度的词语,对不同字数长度的词语进行评分,且评分时使用长度权重对词语得分进行修正,使长度更长的词语评分更高,从而使能够客观反映文档内容的词语被确定为关键词的概率更高,确定出的关键词准确性更高。

    附图说明

    为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

    图1为本发明提供的一种关键词的确定方法的方法流程图;

    图2为本发明提供的一种关键词的确定装置的结构示意图。

    具体实施方式

    下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

    在本发明中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

    本发明可以应用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

    本发明提供了一种关键词的确定方法,图1示出了本发明实施例提供的关键词的确定方法的方法流程图,包括步骤s101以及s102。

    s101:获得多个不同聚类的文档集合。

    具体地,文档集合可以是通过聚类算法得到的,聚类算法具体可以为层次树聚类算法等等。文档集合中包含有一篇或多篇文档,文档是文字的集合。聚类的标准可以是文档的主题内容,不同主题内容的文档会被划分为不同聚类的文档。例如,某聚类的文档集合包含的是“科技”这一主题内容的文档;另一聚类的文档集合包含的是“民生”这一主题内容的文档。

    具体地,获得多个不同聚类的文档集合的一种实现方式,可以包括以下步骤:

    首先,获取特定领域的语料,语料可以作为本发明中的文档,使用语言技术软件,例如使用哈工大ltp语言技术平台等,对文档进行切词处理,以获得各个文档对应的分词结果。其中,所述语料指的是在语言的实际使用中出现过的语言材料,通常存在对应领域的语料库中,特定领域可以由用户的需求决定,即获取特定领域所对应的语料库中的语料。对文档进行切词处理后,可以得到预设字数的词单元。例如,某一文档内容为“全月国际原油期货价格在89-106美元/桶区间震荡”,经过切词处理后,该文档的分词结果为:全国、国际、原油、期货、价格、在、89、-、106、美元、/、桶、区间、震荡。

    然后,统计各个词单元的词频,并根据词单元的词频构建词典,例如可以将词频大于等于某个阈值如3的词单元构建成词典。并且,将各个文档对应的分词结果转换成词典空间的one-hot(独热码)向量形式。

    其中,转换成one-hot向量的具体方式是,依据各个文档分词结果中各个词单元在词典空间的位置,以0、1的形式,将各个文档对应的各个词单元转换成one-hot向量。其中,0代表词典中该位置的词语没有出现在文档中,或者说词典中该位置的词语不是分词结果中的一个词典元,1代表词典中该位置的词语有在文档中出现,或者说词典中该位置的词语是分词结果中的一个词典元。例如,若词典为“一桶、原油、期货、价格”,某一文档对应的分词结果为“原油、期货”,那么将所述分词结果转换成的one-hot向量为“0,1,1,0”。

    进而,在得到各个文档对应的one-hot向量后,使用特征向量算法将各个one-hot向量转换成各个文档对应的特征向量。

    其中,特征向量算法具体可以为tf-idf(termfrequency–inversedocumentfrequency,词频-逆文档频率)加权算法,lda(lineardiscriminateanalysis,线性判别分析)等算法。将各个文档对应的one-hot向量输入至特征向量算法中,计算得出各个文档对应的特征向量。

    最后,使用聚类算法对各个文档对应的特征向量进行聚类,从而得到多个不同的聚类。

    聚类算法,是一种将具有相似内容的文本进行归类的无监督算法,也是很多下游任务的基础。聚类算法可以将内容相似即内容主题相同的文档归类为同一聚类。例如,“退休金比工资还高,看看美国人怎么做到的”和“我们拿什么来拯救退休后的自己?”这两个文本内容相似,因此可以被归类到同一类,而“保利构建大健康产业生态发展平台推动老龄产业发展”便不会被归到这一类中。

    聚类算法可以包括k-means聚类算法、层次树聚类算法如birch聚类算法等等。聚类算法可以依据各个文档对应的特征向量,按照一定的预设阈值,将各个特征向量进行分类,以得到多个不同的聚类。每个聚类中包含有若干个文档。

    s102:针对任一聚类的文档集合,执行下述关键词确定操作:按照多种不同的切分长度,对任一聚类的文档集合包含的各个文档进行词语切分,以得到多种不同字数长度的词语;计算各个词语在多个不同聚类的文档集合中的出现频率得分;并且,基于词语的字数长度,计算各个词语的长度权重得分;其中长度权重得分用于表示词语的字数长度对于词语被确定为关键词的影响程度;基于出现频率得分以及长度权重得分计算各个词语的综合得分;根据各个词语的综合得分确定任一聚类的文档集合的关键词。

    具体地,上一步骤得到的聚类为多个,本步骤对多个聚类中的任何一个聚类,都可以按照上述关键词确定操作,对该聚类中的文档确定关键词。对任一聚类的文档集合进行关键词确定操作时,该任一聚类可以称为当前聚类,相应地各个步骤中所述的任一聚类即为该当前聚类。

    关键词确定操作首先按照切分长度对文档进行词语切分,其中切分长度可以是预设好的,具体的切分长度可以由想要得到的词的字数而定,例如需要得到2字词,即切分长度设为2。

    切分长度为多个,从而可以得到长度不同的多种词语。例如,切分长度可以包括2、3、4及5四个长度,可以切分得到长度为2、3、4及5四种长度的词语。另外,切分长度可以指的是词语中包含的字符的个数,也可以是词语中包含的词单元的个数。以包含词单元为例,切分长度包括2、3、4及5四个长度,则说明切分后得到的词语中分别包含有2个词单元、3个词单元、4个词单元及5个词单元。具体如,“基金公司”为包含2个词单元的词语、“中国基金公司”为包含3个词单元的词语、“中国基金公司股票”为包含4个词单元的词语、“中国基金公司股票预测”为包含5个词单元的词语。

    需要说明的是,切分长度有多个,相应地则可以对文档进行多次切分,每次切分按照同一切分长度切分文档;或者可以按照词单元的长度初步切分文档,然后按照切分长度包含的词单元的个数,将相邻的词单元合并后得到切分后的词语。例如,按照词单元的长度,对文档进行初步分词后得到的是“a基金公司是最好的基金公司”,某切分长度为2,则将相邻的两个词单元组合后便可以得到切分长度为2的词语,如切分长度为2的词语包括:“a基金”、“基金公司”、“公司是”、“是最好”、“最好的”、“的基金”、“基金公司”。同理,可以得到其他切分长度的词语。

    经过切分操作得到词语后,统计每个词语在文档集合中出现的次数。以上述切分结果为例,可以统计出,“a基金”、“公司是”、“是最好”、“最好的”、“的基金”这些词语的出现次数都为1,“基金公司”的出现次数为2。也就是说,根据不同的词单元个数设置对同一文档进行切分,会得到不同个数单元词构成的词语,这里将基于这些不同长度的词语统计词语出现的次数。

    出现次数可以认为是出现频率的一种具体形式,或者出现频率为词语的出现次数与词语总个数的比值。根据出现频率计算出现频率对应的得分,其中计算的标准是出现频率越高,则该词语的出现频率得分越高。具体地,使用频率得分计算公式,计算各个经过切分处理得到的词语在上述获取到的多个不同聚类的文档集合中的出现频率得分。

    另外,基于词语的字数长度,计算得到各个词语的长度权重得分。长度权重得分用于表示词语的字数长度对于词语被确定为关键词的影响程度。

    在关键词的确定过程中,很多时候字数较多的词语,或是较长的词语,能够更好地展示文档的具体内容,但是根据现有技术,只会将这些词语切分为更短的词语,在计算出现频率得分时,也无法将此类情况考虑进去,可能会存在某些表达能力更强的较长关键词得分会明显低于表达能力较低的较短关键词。

    考虑到此类情况的出现,本发明引入了长度权重得分的计算,很好地规避掉了这一情况给关键词确定带来的影响。

    具体地,计算长度权重得分的方式可以根据实验进行多次调整,计算得出的长度权重得分,可以保证长词的分数能够排在字数较少、出现频率得分较高的词前面。

    需要说明的是,关于长词的定义,本发明并不做具体限定,只要是本领域技术人员能够根据本领域关于词语长短的公知理解,对词语长度进行定义即可。

    将得到的出现频率得分和长度权重得分进行计算,以得到各个词语对应的综合得分。在得到各个词语的综合得分后,可以对各个词语的综合得分进行排序,依据排序结果来确定当前聚类的文档集合的关键词。具体地,将所述综合得分进行从高至低的排序,将综合得分排序在前的预设数量的词语确定为所述任一聚类的文档集合的关键词。

    具体地,计算各个词语在所述多个不同聚类的文档集合中的出现频率得分的步骤,包括:

    计算各个词语在所述任一聚类的文档集合的出现频率;计算各个词语在所述任一聚类之外的其他聚类的文档集合的出现逆频率;将各个词语的出现频率以及出现逆频率的乘积,作为各个词语在所述多个不同聚类的文档集合中的出现频率得分。

    其中,出现逆频率,指的是词语在该任一聚类之外的其他聚类的文档集合的出现频率的倒数。出现逆频率越高,则表示词语在其他聚类的文档集合的出现频率越低;反之,出现逆频率越高,则表示词语在其他聚类的文档集合的出现频率越高。出现逆频率,也可以包括词语在某些指定聚类的文档集合的出现频率的倒数。因此,任一聚类之外的其他聚类为对比类,用于修正出现频率得分。其他聚类可以是该任一聚类之外的所有其他聚类,也可以是该任一聚类之外的某些指定的聚类。

    这里使用逆频率来表示词语在其他聚类的文档集合中出现的情况,其意义在于,如果一个词语在其他聚类的文档集合中出现的频率越高,其逆频率就越小,所表达就的是该词语成为当前聚类的文档中成为关键词的可能性更低。这样,该词语在当前聚类的文档集合的出现频率,与该词语在其他聚类中出现的逆频率相乘后得到的结果,就能够正确的反应该词语成为关键词的可能性,该结果越大,表示可能性越高。这样处理不仅考虑到了该词语在当前聚类的文档集合中出现的情况,还能够考虑到该词语在其他聚类的文档集合中出现的情况,通过取倒数得到逆频率,并与该词语在当前聚类的文档集合的出现频率相乘,能够将两种情况统一量化并计算,进而通过逆频率来修正该词语成为关键词的可能性,能够让关键词的确定结果更加客观、准确。

    具体地,计算各个词语在所述任一聚类的文档集合的出现频率的步骤为:

    统计所述任一聚类的文档集合包含的文档数量、以及统计各个词语在所述任一聚类的文档集合的出现篇数;基于所述出现篇数及所述文档数量,计算各个词语在所述任一聚类的文档集合的出现频率。

    相对应地,计算各个词语在所述任一聚类之外的其他聚类的文档集合的出现逆频率的步骤为:

    统计所述各个词语在所述任一聚类之外的其他聚类的文档集合的出现篇数;基于所述出现篇数,计算各个词语在所述任一聚类之外的其他聚类的文档集合的出现逆频率。

    具体地,出现频率可以由出现篇数除以总篇数计算得出,即各个词语在某一聚类的文档集合中出现的篇数除以该文档合集所包含的文档的总篇数,相对应地,出现逆频率为出现篇数除以总篇数后,再取倒数。具体地公式如下所示:

    其中,a为出现篇数,b为未出现篇数,a b就是本类中的篇数总和。首先通过a/a b得到出现篇数所对应的出现频率,在式子中,将出现频率进行平方处理,是为了增加出现频率的影响。乘以的log项,则是计算各个词语在所述任一聚类之外的其他聚类的文档集合的出现逆频率,当各个词语在其它聚类中出现的次数越多时这个值越小,也就是说这个词语不是这个聚类的特征词,而是一种各个聚类通用的词语。整个公式的意义是,词语在任一聚类中出现的频率越高,在其它类别中出现的次数越低,则频率特征得分越高。

    除此之外,出现频率还可以由某一词语在所有文档中的出现次数,除以该词语所对应的字数长度相同的词语总出现次数。例如,“基金”的出现次数为50次,基金对应的字数长度为2,经过计算得出字数长度为2的词语总出现次数为500,即在上述公式中,a的值为50,相对应地,a b可以替换为其他参数用以表达总出现次数,则该参数的值即为500,相对应地,通过出现次数,也可以得到各个词语在所述多个不同聚类的文档集合中的出现频率得分。

    具体地,基于词语的字数长度,计算各个词语的长度权重得分的步骤为:

    确定词语中包含的词组个数,并将所述词组个数作为以预设底数为底的指数计算公式的指数,计算指数修正得分;计算词语的字数长度包含的各个长度的长度修正得分;

    具体的公式如下所示:

    其中,2为一个预设底数,n为词语中包含的词组个数,l代表词语的字数。该公式得出的结果为一个长度校正项,简单理解为,词语中词组个数n越大、词语的字数l越大,则词语长度权重得分越高,相反地,词语中词组个数n越小、词语的字数l越小,则词语长度权重得分越低。且该公式随长度、个数的变化会趋近于一个指数函数。故将该公式作为计算各个词语的长度权重得分可以更好地保证长词的分数能够排在字数较低,且出现频率得分较高的词前的公式。

    在得到出现频率得分和长度权重得分后,会基于出现频率得分以及长度权重得分计算各个词语的综合得分,具体地,是将各个词语的出现频率得分与长度权重得分的乘积,作为各个词语的综合得分,具体的公式如下所示:

    score=scorefreq×scorelength

    从上述的公式可以看出,长度权重得分实际为一种调整参数,是对出现频率得分的一种修正方式,可以规避掉前述的,某些表达能力更强的较长关键词得分会明显低于表达能力较低的较短关键词的情况。故将二者相乘,用以得到经过修正后的综合得分,该综合得分能够更好地展示对应的词语的表达能力。

    具体地,根据各个词语的综合得分确定当前聚类的文档集合的关键词,包括:

    将综合得分从高至低进行排序,并将排序在前的预设数量的词语确定为所述任一聚类的文档集合的关键词,其中,预设数量为人工设置,可以根据历史经验,对用户所想要了解的关键词数量,对所述预设数量进行设置。例如,预设数量可以取5,即将排序前5的词语确定这一聚类的文档集合的关键词,并返回给用户。

    需要说明的是,目前采用的关键词确定方法,使用预先设置的词典对文本进行分词操作,然后基于分词结果使用关键词确定算法在分词结果中抽取关键词。其中,为保证高准确率,分词粒度都比较细,导致采用一些常规的textrank等关键词确定算法抽取的关键词长度以2-3字为主,不一定能够符合长关键词的要求。例如,在养老金用户评论分析这个领域应用中,“支付宝、微信、京东……性价比最高的稳健型理财!”这个句子中需要确定“稳健型理财”这个关键词,但是分词结果中将其处理为“稳健型”及“理财”两个分词;再如,在工业互联网文本安全性检测这个领域中,“全月国际原油期货价格在89-106美元/桶区间震荡”这个句子中需要确定“国际原油期货价格”这个关键词,但是分词结果通常将其处理为“国际”、“原油”、“期货”、“价格”四个分词。虽然,可以通过自定义用户词典来增加分词后词语的粒度,但是构建用户词典需要大量的人力工作、耗时费力。

    然而,本发明提供的关键词确定方法,可以获得多个不同聚类的文档集合,并按照多种不同的切分长度,对任一聚类的文档集合包含的各个文档进行词语切分,以得到多种不同字数长度的词语,通过计算得到各个词语的出现频率得分、长度权重得分和综合得分,并将综合得分排序在前的预设数量的词语确定为任一聚类的文档集合的关键词。本发明提供的关键词确定方法不同于其他开源算法中只能确定较短的关键词、或通过人工构建词典来进行特征词确定,而是对文档进行词语切分可以得到多种不同字数长度的词语,对不同字数长度的词语进行评分,且评分时使用长度权重对词语得分进行修正,使长度更长的词语评分更高,进而被选中为关键词的概率更高,这些关键词更能客观地反映文档内容,从而提高了所确定的关键词的准确性。

    本发明在评论文本情感分析、文本检索和文本推荐等领域都有很大的应用价值。确定文本关键词是这些领域中的上游任务,其对于下游的文本处理任务提供数据支持,如果文本关键词提取不准确,则会进一步影响文本处理效果。例如,在文本推荐的领域中,用户阅读某篇文本后,可以为其推荐内容相似的其他文本。因此可以预先对互联网中存在的海量文本进行处理,以提取各个文本的关键词。根据用户所阅读文本的关键词,在海量文本中查找与该关键词相同的目标文本,将该目标文本推荐给用户。本发明确定出的关键词更加客观地反映文本内容,准确性更高,因此为用户推送的文本更加准确。再例如,在论文网站也可以根据关键词来对论文进行聚类和管理,如果确定关键词的准确性较差,就会导致论文的分类存在变差,进而影响整体管理工作,本发明的方案具有较好的准确性,并且能够避免因为人工提取关键词而导致占用人力物力的问题。需要说明的是,此应用场景仅仅是一个示例说明,本发明提供的关键词确定方案还可以应用于其他根据关键词对文本处理的场景中。

    进一步地,本发明实施例在确定出关键词后,还可以包括以下步骤:

    在所述任一聚类的文档集合中,查找包含所述关键词的目标文档;

    为所述目标文档添加包含所述关键词的关键词标签。

    具体地,在获取到各个文档对应的关键词后,为各个文档添加包含所述关键词的关键词标签。或者,也可以为聚类添加关键词标签。通过关键词标签,可以直观地确定文档中所包含的关键词有哪些,或者通过关键词标签可以对文档进行检索。

    与图1所述的方法相对应的,本发明实施例还提供了一种关键词的确定装置,用于对图1中方法的具体实现,其结构示意图如图2所示,具体包括:

    获取单元201,用于获得多个不同聚类的文档集合;

    执行单元202,用于将任一聚类的文档集合作为当前聚类的文档集合,执行下述关键词确定操作:按照多种不同的切分长度,对任一聚类的文档集合包含的各个文档进行词语切分,以得到多种不同字数长度的词语;计算各个词语在多个不同聚类的文档集合中的出现频率得分;基于词语的字数长度,计算各个词语的长度权重得分;其中长度权重得分用于表示词语的字数长度对于词语被确定为关键词的影响程度;基于出现频率得分以及长度权重得分计算各个词语的综合得分;根据各个词语的综合得分确定任一聚类的文档集合的关键词。

    在一种实现方式中,执行单元用于计算各个词语在多个不同聚类的文档集合中的出现频率得分,包括:

    计算各个词语在任一聚类的文档集合的出现频率;

    计算各个词语在任一聚类之外的其他聚类的文档集合的出现逆频率;

    将各个词语的出现频率以及出现逆频率的乘积,作为各个词语在多个不同聚类的文档集合中的出现频率得分。

    在一种实现方式中,执行单元用于计算各个词语在任一聚类的文档集合的出现频率,包括:

    统计任一聚类的文档集合包含的文档数量、以及统计各个词语在任一聚类的文档集合的出现篇数;

    基于出现篇数及文档数量,计算各个词语在任一聚类的文档集合的出现频率。

    在一种实现方式中,执行单元用于计算各个词语在任一聚类之外的其他聚类的文档集合的出现逆频率,包括:

    统计各个词语在任一聚类之外的其他聚类的文档集合的出现篇数;

    基于出现篇数,计算各个词语在任一聚类之外的其他聚类的文档集合的出现逆频率。

    在一种实现方式中,执行单元用于基于词语的字数长度,计算各个词语的长度权重得分,包括:

    确定词语中包含的词组个数,并将词组个数作为以预设底数为底的指数计算公式的指数,计算指数修正得分;

    计算词语的字数长度包含的各个长度的长度修正得分;

    将词语的指数修正分数与长度修正得分的乘积,作为词语的长度权重得分。

    在一种实现方式中,执行单元用于基于出现频率得分以及长度权重得分计算各个词语的综合得分,包括:

    将各个词语的出现频率得分与长度权重得分的乘积,作为各个词语的综合得分。

    在一种实现方式中,还包括:

    添加单元,用于在任一聚类的文档集合中,查找包含关键词的目标文档,为目标文档添加包含关键词的关键词标签。

    所述关键词的确定装置包括处理器和存储器,上述获取单元、执行单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

    处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高确定关键词的准确性。

    本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述关键词的确定方法。

    本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述关键词的确定方法。

    本发明实施例提供了一种设备,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述的关键词的确定方法。本文中的设备可以是服务器、pc、pad、手机等。

    本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:

    获得多个不同聚类的文档集合;

    将任一聚类的文档集合作为当前聚类的文档集合,执行下述关键词确定操作:

    按照多种不同的切分长度,对所述当前聚类的文档集合包含的各个文档进行词语切分,以得到多种不同字数长度的词语;

    计算各个词语在所述多个不同聚类的文档集合中的出现频率得分;

    基于词语的字数长度,计算各个词语的长度权重得分;其中所述长度权重得分用于表示词语的字数长度对于词语被确定为关键词的影响程度;

    基于出现频率得分以及长度权重得分计算各个词语的综合得分;

    根据各个词语的综合得分确定所述当前聚类的文档集合的关键词。

    在一种实现方式中,计算各个词语在所述多个不同聚类的文档集合中的出现频率得分,包括:计算各个词语在所述当前聚类的文档集合的出现频率;计算各个词语在所述当前聚类之外的其他聚类的文档集合的出现逆频率;将各个词语的出现频率以及出现逆频率的乘积,作为各个词语在所述多个不同聚类的文档集合中的出现频率得分。

    在一种实现方式中,计算各个词语在所述当前聚类的文档集合的出现频率,包括:统计所述当前聚类的文档集合包含的文档数量、以及统计各个词语在所述当前聚类的文档集合的出现篇数;基于所述出现篇数及所述文档数量,计算各个词语在所述当前聚类的文档集合的出现频率。

    在一种实现方式中,计算各个词语在所述当前聚类之外的其他聚类的文档集合的出现逆频率,包括:统计所述各个词语在所述当前聚类之外的其他聚类的文档集合的出现篇数;基于所述出现篇数,计算各个词语在所述当前聚类之外的其他聚类的文档集合的出现逆频率。

    在一种实现方式中,基于词语的字数长度,计算各个词语的长度权重得分,包括:确定词语中包含的词组个数,并将所述词组个数作为以预设底数为底的指数计算公式的指数,计算指数修正得分;计算词语的字数长度包含的各个长度的长度修正得分;将词语的指数修正分数与长度修正得分的乘积,作为词语的长度权重得分。

    在一种实现方式中,基于出现频率得分以及长度权重得分计算各个词语的综合得分,包括:将各个词语的出现频率得分与长度权重得分的乘积,作为各个词语的综合得分。

    在一种实现方式中,关键词的确定方法还包括:在所述当前聚类的文档集合中,查找包含所述关键词的目标文档;为所述目标文档添加包含所述关键词的关键词标签。

    本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

    在一个典型的配置中,设备包括一个或多个处理器(cpu)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

    存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

    计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

    还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

    本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

    以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。


    技术特征:

    1.一种关键词的确定方法,其特征在于,包括:

    获得多个不同聚类的文档集合;

    将任一聚类的文档集合作为当前聚类的文档集合,执行下述关键词确定操作:

    按照多种不同的切分长度,对所述当前聚类的文档集合包含的各个文档进行词语切分,以得到多种不同字数长度的词语;

    计算各个词语在所述多个不同聚类的文档集合中的出现频率得分;

    基于词语的字数长度,计算各个词语的长度权重得分;其中所述长度权重得分用于表示词语的字数长度对于词语被确定为关键词的影响程度;

    基于出现频率得分以及长度权重得分计算各个词语的综合得分;

    根据各个词语的综合得分确定所述当前聚类的文档集合的关键词。

    2.根据权利要求1所述的关键词的确定方法,其特征在于,计算各个词语在所述多个不同聚类的文档集合中的出现频率得分,包括:

    计算各个词语在所述当前聚类的文档集合的出现频率;

    计算各个词语在所述当前聚类之外的其他聚类的文档集合的出现逆频率;

    将各个词语的出现频率以及出现逆频率的乘积,作为各个词语在所述多个不同聚类的文档集合中的出现频率得分。

    3.根据权利要求2所述的关键词的确定方法,其特征在于,计算各个词语在所述当前聚类的文档集合的出现频率,包括:

    统计所述当前聚类的文档集合包含的文档数量、以及统计各个词语在所述当前聚类的文档集合的出现篇数;

    基于所述出现篇数及所述文档数量,计算各个词语在所述当前聚类的文档集合的出现频率。

    4.根据权利要求2所述的关键词的确定方法,其特征在于,计算各个词语在所述当前聚类之外的其他聚类的文档集合的出现逆频率,包括:

    统计所述各个词语在所述当前聚类之外的其他聚类的文档集合的出现篇数;

    基于所述出现篇数,计算各个词语在所述当前聚类之外的其他聚类的文档集合的出现逆频率。

    5.根据权利要求1所述的关键词的确定方法,其特征在于,基于词语的字数长度,计算各个词语的长度权重得分,包括:

    确定词语中包含的词组个数,并将所述词组个数作为以预设底数为底的指数计算公式的指数,计算指数修正得分;

    计算词语的字数长度包含的各个长度的长度修正得分;

    将词语的指数修正分数与长度修正得分的乘积,作为词语的长度权重得分。

    6.根据权利要求1所述的关键词的确定方法,其特征在于,基于出现频率得分以及长度权重得分计算各个词语的综合得分,包括:

    将各个词语的出现频率得分与长度权重得分的乘积,作为各个词语的综合得分。

    7.根据权利要求1所述的关键词的确定方法,其特征在于,还包括:

    在所述当前聚类的文档集合中,查找包含所述关键词的目标文档;

    为所述目标文档添加包含所述关键词的关键词标签。

    8.一种关键词的确定装置,其特征在于,包括:

    获取单元,用于获得多个不同聚类的文档集合;

    执行单元,用于将任一聚类的文档集合作为当前聚类的文档集合,执行下述关键词确定操作:

    按照多种不同的切分长度,对所述当前聚类的文档集合包含的各个文档进行词语切分,以得到多种不同字数长度的词语;

    计算各个词语在所述多个不同聚类的文档集合中的出现频率得分;

    基于词语的字数长度,计算各个词语的长度权重得分;其中所述长度权重得分用于表示词语的字数长度对于词语被确定为关键词的影响程度;

    基于出现频率得分以及长度权重得分计算各个词语的综合得分;将综合得分排序在前的预设数量的词语确定为所述当前聚类的文档集合的关键词。

    9.一种存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的关键词的确定方法。

    10.一种关键词的确定设备,其特征在于,包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行如权利要求1~7中任一项所述的关键词的确定方法。

    技术总结
    本发明提供了一种关键词的确定方法,该方法可以获得多个不同聚类的文档集合,并按照多种不同的切分长度,对任一聚类的文档集合包含的各个文档进行词语切分,以得到多种不同字数长度的词语,通过计算得到各个词语的出现频率得分、长度权重得分和综合得分,并将综合得分排序在前的预设数量的词语确定为任一聚类的文档集合的关键词。本发明对文档进行词语切分可以得到多种不同字数长度的词语,对不同字数长度的词语进行评分,且评分时使用长度权重对词语得分进行修正,使长度更长的词语评分更高,所确定的关键词更加客观地反映文本内容,进而提高关键词确定的准确性。另外本发明还提供了关键词的确定设备,以保证上述方法在实际中的应用及实现。

    技术研发人员:戴泽辉
    受保护的技术使用者:北京国双科技有限公司
    技术研发日:2019.09.12
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-21776.html

    最新回复(0)