本发明属于意图识别技术领域,尤其涉及一种意图分析方法及系统。
背景技术:
人工智能正在逐步深入人们的日常生活,自然语言处理在这其中更是扮演着举足轻重的角色。如何快速理解用户的意图并提供对应的产品服务对企业发展至关重要。
目前,为了提高对用户意图的理解效率,需不断地训练大量庞大而复杂的模型,面对生活中变化多样的词汇,模型需要重新学习新词汇,导致模型的训练时间长且维护成本高;同时,用户的语言表达中难免会出现歧义词,这容易导致意图识别错误。
技术实现要素:
为了克服现有技术的不足,本发明的目的在于提供一种意图分析方法及系统,以解决目前的意图识别模型无法快速适应新词汇且对于歧义词容易误识别的问题。
本发明的目的采用如下技术方案实现:
一种意图分析方法,包括:
建立参考词句数据库,所述参考词句数据库包括领域词、与所述领域词相关联的相关词以及具有意图标记的参考表达句式;
根据所述领域词训练得到其所属领域的词性标注模型;
获取用户输入的语言信息,对所述语言信息进行分词,并基于若干个所述词性标注模型分别标注所述语言信息中的所述领域词,得到若干个领域表达句式;
将每个所述领域表达句式与其同一领域的所述参考表达句式进行比对,比对匹配度最高的所述参考表达句式作为意图判定结果,并基于所述意图判定结果的所述参考表达句式得到所述意图标记。
进一步地,所述建立参考词句数据库的步骤包括:
获取所述领域词,根据所述领域词获取与其关联的所述相关词。
进一步地,所述建立参考词句数据库的步骤还包括:
在若干领域获取对应的领域表达句型;
将所述领域表达句型中出现的所述相关词替换为与所述相关词关联的所述领域词,得到所述参考表达句式。
进一步地,在所述将所述领域表达句型中出现的所述相关词替换为与所述相关词关联的所述领域词,得到所述参考表达句式步骤之后,还包括:
根据所述参考表达句式所需提供的服务,对所述参考表达句式添加所述意图标记。
进一步地,所述根据领域词训练得到其所属领域的词性标注模型步骤还包括:
根据所述领域词和所述领域表达句型生成基础语料,利用所述基础语料训练得到所述词性标注模型。
进一步地,所述基于所述词性标注模型标注所述语言信息中的所述领域词步骤还包括:
所述词性标注模型识别其所属领域的相关词并标注为对应的所述领域词。
进一步地,所述基于所述词性标注模型标注所述语言信息中的所述领域词步骤还包括:
将新的所述相关词关联至与其相关的所述领域词,所述词性标注模型对所述语言信息中出现的新的所述相关词进行识别并标注为所述领域词。
进一步地,筛选出与所述领域表达句式处于同一领域且匹配度最高的所述参考表达句式,并基于所述参考表达句式得到所述意图标记步骤之后,还包括:
提取所述领域表达句式中的相关词,将所述相关词和意图标记发送至服务端进行处理。
为了解决相同的技术问题,本发明还提供了一种意图分析系统,包括:
参考词句数据库,用于存储具有意图标记的参考表达句式;
词性标注模型生成模块,用于根据领域词训练得到词性标注模型;
用户输入模块,用于获取用户输入的语言信息;
分词模块,用于对所述语言信息进行分词;
领域表达句式生成模块,用于基于所述词性标注模型标注所述语言信息中的所述领域词,得到领域表达句式;
比对模块,用于筛选出与所述领域表达句式处于同一领域且匹配度最高的所述参考表达句式,并基于所述参考表达句式得到所述意图标记。
进一步地,所述参考词句数据库包括:
领域词存储单元,用于存储所述领域词;
相关词存储单元,用于存储所述相关词,并将所述相关词关联至与其相关的所述领域词;
领域表达句型存储单元,用于存储领域表达句型;
参考表达句式生成单元,用于将所述领域表达句型中出现的所述相关词替换为与所述相关词关联的所述领域词,得到所述参考表达句式。
相比现有技术,本发明的有益效果在于:
(1)词性标注模型根据领域词训练得到的,可将新的相关词更新至参考词句数据库并与相关的领域词关联,使词性标注模型能够快速适应新词汇,快速响应服务需求;
(2)根据不同领域的领域词训练得到若干领域的词性标注模型,对不同领域的领域表达句式和参考表达句式分别进行比对,得到匹配度最高的参考表达句式作为意图判定结果,从而有效避免了歧义词导致的意图误识别,提高意图判断准确率。
附图说明
图1为发明的意图分析方法的流程示意图;
图2为发明的意图分析系统的结构示意图。
图中:
100、参考词句数据库;110、领域词存储单元;120、相关词存储单元;130、领域表达句型存储单元;140、参考表达句式生成单元;200、词性标注模型生成模块;300、用户输入模块;400、分词模块;500、领域表达句式生成模块;600、比对模块。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳的实施例。但是,本发明可以用许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
结合图1所示,示意性地显示了本发明的意图分析方法的流程,包括:
s100、建立参考词句数据库;具体地,
s101、获取领域词,根据领域词获取与其关联的相关词
例如:在烹饪领域,可获取以下领域词:菜名/ndish,食材/nfood,人群/npeople,口味/ataste,功效/nfunction,节日/tfestival,菜系/ncuisine等;其中,“菜名/ndish”中的“菜名”为领域词,“ndish”为该领域词的标注词,同理,“食材/nfood”中的“食材”为领域词,“nfood”为该领域词的标注词。
可根据上述烹饪领域的领域词获取以下相关联的相关词:
菜名/ndish:糯米鸡、啤酒鸭、酸辣土豆丝等;
食材/nfood:牛肉、土豆、番茄等;
人群/npeople:老人、小孩、孕妇等;
口味/ataste:酸、甜、苦、辣等;
功效/nfunction:丰肌润发、乌发明目、防治水肿等;
节日/tfestival:元宵、端午、七夕等;
菜系/ncuisine:粤菜、广东菜、潮州菜等。
又例如:在音乐领域,可获取以下领域词:歌曲/nsong,歌手/nsinger,语种/nlang,流派/ngenre等;其中,“歌曲/nsong”中的“歌曲”为领域词,“nsong”为该领域词的标注词,同理,“歌手/nsinger”中的“歌手”为领域词,“nsinger”为该领域词的标注词。
可根据上述音乐领域的领域词获取以下相关联的相关词:
歌曲/nsong:天使之城、晴天、两个人的寂寞等;
歌手/nsinger:王菲、张学友、周杰伦等;
语种/nlang:中文、粤语、英文等;
流派/ngenre:民谣、摇滚、流行等。
当然,其他领域可参照上述烹饪领域和音乐领域的领域词及相关词的获取,此处不再赘述。
s102、在若干领域获取对应的领域表达句型,领域表达句型可以是其所属领域常用的表达句型;
例如:在烹饪领域,可获取以下领域表达句型:
酸辣土豆丝要怎么做才好吃/啤酒鸭有哪些简单的做法等;
牛肉能做什么菜/土豆和番茄能做什么不辣的菜等;
老人适合吃什么菜/孕妇能吃什么等;
乌发明目的食材有哪些/丰肌润发吃些什么好等;
七夕有什么菜推荐/元宵节,大家都吃些什么等;
粤菜有哪些/潮州菜有哪些等。
又例如:在音乐领域,可获取以下领域表达句型:
我想听两个人的寂寞/唱一首晴天等;
播放张学友的歌/来一首王菲的歌等;
我想听中文歌/我想听王菲唱的英文歌等;
来一首流行歌曲/我想听民谣等。
其他领域可参照上述烹饪领域和音乐领域的领域表达句型的获取,此处不再赘述。
s103、将领域表达句型中出现的相关词替换为与相关词关联的领域词,得到参考表达句式;
例如:在烹饪领域,领域表达句型经处理后得到参考表达句式:
{菜名}要怎么做才好吃/{菜名}有哪些简单的做法等;
{食材}能做什么菜/{食材}和{食材}能做什么不辣的菜等;
{人群}适合吃什么菜/{人群}能吃什么等;
{功效}的食材有哪些/{功效}吃些什么好等;
{节日}有什么菜推荐/{节日},大家都吃些什么等;
{菜系}有哪些/{菜系}有哪些等。
又例如:在音乐领域,领域表达句型经处理后得到参考表达句式:
我想听{歌曲}/唱一首{歌曲}等;
播放{歌手}的歌/来一首{歌手}的歌等;
我想听{语种}歌/我想听{歌手}唱的{语种}歌等;
来一首{流派}歌曲/我想听{流派}等。
其他领域可参照上述烹饪领域和音乐领域的领域表达句型的处理方式,此处不再赘述。
s104、根据参考表达句式所需提供的服务,对参考表达句式添加意图标记;
例如:在烹饪领域,为以下参考表达句式添加意图标记:
{菜名}要怎么做才好吃/{菜名}有哪些简单的做法等;
{食材}能做什么菜/{食材}和{食材}能做什么不辣的菜等;
{人群}适合吃什么菜/{人群}能吃什么等;
{节日}有什么菜推荐/{节日},大家都吃些什么等;
{菜系}有哪些/{菜系}有哪些等;
上述的参考表达句式的意图标记为:“问什么菜名/what-dish”。
{功效}的食材有哪些/{功效}吃些什么好等;
上述的参考表达句式的意图标记为:“问什么食材/what-food”。
又例如:在音乐领域,为以下参考表达句式添加意图标记:
我想听{歌曲}/唱一首{歌曲}等;
播放{歌手}的歌/来一首{歌手}的歌等;
我想听{语种}歌/我想听{歌手}唱的{语种}歌等;
来一首{流派}歌曲/我想听{流派}等;
上述的参考表达句式的意图标记为:“播放歌曲/what-song”。
其他领域可参照上述烹饪领域和音乐领域的意图标记添加操作,此处不再赘述。
s200、根据领域词训练得到其所属领域的词性标注模型;具体地,
根据领域词和领域表达句型生成基础语料,利用基础语料训练得到词性标注模型,对于词性标注模型的训练,可采用深度学习领域中现有的词性标注模型训练方法。词性标注模型的词性标注效果如下:
“酸菜鱼有哪些做法”经词性标注处理后得到:“酸菜鱼_ndish,有_v,哪些_r,做法_n”;
“土豆和牛肉能做什么不辣的菜”经词性标注处理后得到:“土豆_nfood,和_c,牛肉_nfood,能_v,做_v,什么_r,不_d,辣_ataste,的_u,菜_n”;
“我想听周杰伦的双截棍”经词性标注处理后得到:“我_r,想_v,听_v,周杰伦_nsinger,的_u,双截棍_nsong”。
其中,某一领域的词性标注模型对不同领域的词性标注效果并不相同,例如:烹饪领域的词性标注模型对以下两种句型的词性标注效果分别为:
“酸菜鱼有哪些做法”经词性标注处理后得到:“酸菜鱼_ndish,有_v,哪些_r,做法_n”;
“我想听周杰伦的双截棍”经词性标注处理后得到:“我_r,想_v,听_v,周杰伦_nr,的_u,双截棍_n”。
音乐领域的词性标注模型对以下两种句型的词性标注效果分别为:
“我想听周杰伦的双截棍”经词性标注处理后得到:“我_r,想_v,听_v,周杰伦_nsinger,的_u,双截棍_nsong”;
“酸菜鱼有哪些做法”经词性标注处理后得到:“酸菜鱼_n,有_v,哪些_r,做法_n”。
由此可见,烹饪领域的词性标注模型能识别到烹饪领域中的相关词“酸菜鱼”并将其标注为领域词“菜名/ndish”,而无法识别音乐领域中的相关词“周杰伦”和“双截棍”;同样的,音乐领域的词性标注模型能识别到音乐领域中的相关词“周杰伦”并将其标注为领域词“歌手/nsinger”以及相关词“双截棍”并将其标注为领域词“歌曲/nsong”,这是因为每个词性标注模型都是根据其所属领域的领域词和领域表达句型训练而得到的。
s300、获取用户输入的语言信息,对语言信息进行分词,并基于若干个词性标注模型分别标注语言信息中的领域词,得到若干个领域表达句式;具体地,
可通过麦克风、键盘等输入设备采集用户输入的语言信息;
若用户输入的语言信息为语音,则首先将用户的语音转化为识别文本,再对识别文本进行分词;
词性标注模型识别其所属领域的相关词并标注为对应的领域词,得到领域表达句式;例如:
在烹饪领域,用户输入语言信息“酸菜鱼有哪些做法”,经词性标注模型的识别标注得到“酸菜鱼_ndish,有_v,哪些_r,做法_n”,结合领域词“菜名/ndish”,可得领域表达句式“{菜名}有哪些做法”;
在音乐领域,用户输入语言信息“我想听展展与罗罗的沙漠的骆驼”,经词性标注模型的识别标注得到“我_r,想_v,听_v,展展与罗罗_nsinger,的_u,沙漠的骆驼_nsong”,结合领域词“歌曲/nsong”和“歌手/nsinger”,可得领域表达句式“我想听{歌手}的{歌曲}”。
当然,随着社会的发展、进步,与领域词相关联的相关词会越来越多。例如在音乐领域,词性标注模型还未将新的相关词“沙漠的骆驼”关联至领域词“歌曲/nsong”,那么音乐领域的词性标注模型对语言信息“我想听展展与罗罗的沙漠的骆驼”的识别标注为“我_r,想_v,听_v,展展与罗罗_nsinger,的_u,沙漠_n,的_u,骆驼_n”,为了能够快速适应社会的发展,可将新的相关词关联至与其相关的领域词,词性标注模型对语言信息中出现的新的相关词进行识别并标注为相关的领域词,如将新的相关词“沙漠的骆驼”关联至领域词“歌曲/nsong”后,那么音乐领域的词性标注模型对语言信息“我想听展展与罗罗的沙漠的骆驼”的识别标注为“我_r,想_v,听_v,展展与罗罗_nsinger,的_u,沙漠的骆驼_nsong”。
s400、将每个领域表达句式与其同一领域的参考表达句式进行比对,比对匹配度最高的参考表达句式作为意图判定结果,并基于意图判定结果的参考表达句式得到意图标记;
具体地,在用户输入语言信息后,采用若干个领域的词性标注模型对该语言信息进行识别标注,得到若干个领域表达句式,将每一个领域表达句式与其同领域的参考表达句式进行比对以检测匹配度,若某一领域表达句式与参考表达句式获得的匹配度最高,则作为意图判定结果,且基于该意图判定结果的参考表达句式可得到相应的意图标记;
例如:
用户输入语言信息“我想听展展与罗罗的沙漠的骆驼”;
音乐领域的词性标注模型对该语言信息进行识别标注得到“我_r,想_v,听_v,展展与罗罗_nsinger,的_u,沙漠的骆驼_nsong”,进而得到领域表达句式“我想听{歌手}的{歌曲}”;
烹饪领域的词性标注模型对该语言信息进行识别标注得到“我_r,想_v,听_v,展展_n,与_u,罗罗_n,的_u,沙漠_n,的_u,骆驼_n”,进而得到领域表达句式“我想{名词}与{名词}的{名词}的{名词}”;
对上述领域表达句式“我想听{歌手}的{歌曲}”与若干个同属音乐领域的参考表达句式进行比对,得出该领域表达句式与音乐领域中的参考表达句式“播放{歌手}的{歌曲}”的匹配度最高,匹配相似程度为90%;
对上述领域表达句式“我想{名词}与{名词}的{名词}的{名词}”与同属烹饪领域的参考表达句式进行比对,得出该领域表达句式与烹饪领域中的参考表达句式“{菜名}要怎么做才好吃”的匹配度最高,匹配相似程度为10%;其中,上述的句式匹配程度计算方法可采用目前现有的句子编辑距离或深度学习领域公开的句子匹配模型计算。
显然,领域表达句式“我想听{歌手}的{歌曲}”与音乐领域中的参考表达句式“播放{歌手}的{歌曲}”的匹配相似程度高于领域表达句式“我想{名词}与{名词}的{名词}的{名词}”与烹饪领域中的参考表达句式“{菜名}要怎么做才好吃”的匹配相似程度,则可以判定语言信息“我想听展展与罗罗的沙漠的骆驼”属于音乐领域,该语言信息应参照参考表达句式“播放{歌手}的{歌曲}”的意图标记,即意图标记为“播放歌曲/what-song”。
s500、提取领域表达句式中的相关词,将相关词和意图标记发送至服务端进行处理,在上述s400的例子中,所要提取的相关词为“展展与罗罗”、“沙漠的骆驼”,意图标记为“播放歌曲/what-song”,服务端则可根据上述的相关词和意图标记找出歌手展展与罗罗的歌曲沙漠的骆驼,并播放该歌曲。
为了解决相同的技术问题,本发明还提供了一种意图分析系统,如图2,包括:
参考词句数据库100,用于存储具有意图标记的参考表达句式;
参考词句数据库100包括:
领域词存储单元110,用于存储领域词;
相关词存储单元120,用于存储所述相关词,并将相关词关联至与其相关的领域词;
领域表达句型存储单元130,用于存储领域表达句型;
参考表达句式生成单元140,用于将领域表达句型中出现的相关词替换为与相关词关联的领域词,得到参考表达句式;
词性标注模型生成模块200,用于根据领域词训练得到词性标注模型;
用户输入模块300,用于获取用户输入的语言信息;
分词模块400,用于对语言信息进行分词;
领域表达句式生成模块500,用于基于词性标注模型标注语言信息中的领域词,得到领域表达句式;
比对模块600,用于筛选出与领域表达句式处于同一领域且匹配度最高的参考表达句式,并基于参考表达句式得到意图标记。
相比现有技术,本发明的有益效果在于:
(1)词性标注模型根据领域词训练得到的,可将新的相关词更新至参考词句数据库并与相关的领域词关联,使词性标注模型能够快速适应新词汇,快速响应服务需求;
(2)根据不同领域的领域词训练得到若干领域的词性标注模型,对不同领域的领域表达句式和参考表达句式分别进行比对,得到匹配度最高的参考表达句式作为意图判定结果,从而有效避免了歧义词导致的意图误识别,提高意图判断准确率。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
1.一种意图分析方法,其特征在于,包括:
建立参考词句数据库,所述参考词句数据库包括领域词、与所述领域词相关联的相关词以及具有意图标记的参考表达句式;
根据所述领域词训练得到其所属领域的词性标注模型;
获取用户输入的语言信息,对所述语言信息进行分词,并基于若干个所述词性标注模型分别标注所述语言信息中的所述领域词,得到若干个领域表达句式;
将每个所述领域表达句式与其同一领域的所述参考表达句式进行比对,比对匹配度最高的所述参考表达句式作为意图判定结果,并基于所述意图判定结果的所述参考表达句式得到所述意图标记。
2.根据权利要求1所述的意图分析方法,其特征在于,所述建立参考词句数据库的步骤包括:
获取所述领域词,根据所述领域词获取与其关联的所述相关词。
3.根据权利要求2所述的意图分析方法,其特征在于,所述建立参考词句数据库的步骤还包括:
在若干领域获取对应的领域表达句型;
将所述领域表达句型中出现的所述相关词替换为与所述相关词关联的所述领域词,得到所述参考表达句式。
4.根据权利要求3所述的意图分析方法,其特征在于,在所述将所述领域表达句型中出现的所述相关词替换为与所述相关词关联的所述领域词,得到所述参考表达句式步骤之后,还包括:
根据所述参考表达句式所需提供的服务,对所述参考表达句式添加所述意图标记。
5.根据权利要求3所述的意图分析方法,其特征在于,所述根据领域词训练得到其所属领域的词性标注模型步骤还包括:
根据所述领域词和所述领域表达句型生成基础语料,利用所述基础语料训练得到所述词性标注模型。
6.根据权利要求1所述的意图分析方法,其特征在于,所述基于所述词性标注模型标注所述语言信息中的所述领域词步骤还包括:
所述词性标注模型识别其所属领域的相关词并标注为对应的所述领域词。
7.根据权利要求1所述的意图分析方法,其特征在于,所述基于所述词性标注模型标注所述语言信息中的所述领域词步骤还包括:
将新的所述相关词关联至与其相关的所述领域词,所述词性标注模型对所述语言信息中出现的新的所述相关词进行识别并标注为所述领域词。
8.根据权利要求1所述的意图分析方法,其特征在于,筛选出与所述领域表达句式处于同一领域且匹配度最高的所述参考表达句式,并基于所述参考表达句式得到所述意图标记步骤之后,还包括:
提取所述领域表达句式中的相关词,将所述相关词和意图标记发送至服务端进行处理。
9.一种意图分析系统,其特征在于,包括:
参考词句数据库,用于存储具有意图标记的参考表达句式;
词性标注模型生成模块,用于根据领域词训练得到词性标注模型;
用户输入模块,用于获取用户输入的语言信息;
分词模块,用于对所述语言信息进行分词;
领域表达句式生成模块,用于基于所述词性标注模型标注所述语言信息中的所述领域词,得到领域表达句式;
比对模块,用于筛选出与所述领域表达句式处于同一领域且匹配度最高的所述参考表达句式,并基于所述参考表达句式得到所述意图标记。
10.根据权利要求9所述的意图分析系统,其特征在于,所述参考词句数据库包括:
领域词存储单元,用于存储所述领域词;
相关词存储单元,用于存储所述相关词,并将所述相关词关联至与其相关的所述领域词;
领域表达句型存储单元,用于存储领域表达句型;
参考表达句式生成单元,用于将所述领域表达句型中出现的所述相关词替换为与所述相关词关联的所述领域词,得到所述参考表达句式。
技术总结