本发明涉及自然语言处理技术,是一种英语文本概念理解方法,本发明的理解方法只适合英语文本,不适合中文文本。
背景技术:
机器自动化的英语文本理解是通过输入一段英语文本以及与文本相关的若干问题,机器依靠自身的算法从输入的英语文本找出问题的答案。传统的英语文本理解方法主要有文本-问题语义分析理解方法和文本-问题词汇匹配理解方法。文本-问题语义分析理解方法主要依赖于预先定义的规则模板,利用手工设计的语言特征对文本和问题之间的关系进行学习,这种方法首先需要大量的手工标注数据,这些数据会造成语义特征稀疏的问题,而且这种方法只适合于某些限定的领域。文本-问题词汇匹配理解方法通过计算文本和问题中关键词语的语义相似度,从而选择相似度较高的词语或短语作为答案,这种方法仅仅通过匹配问题和英语文本中词语之间的相似度信息,难以获得英语文本中多义词的准确语义,从而导致阅读理解答案选择不准确的问题。针对上述问题,本发明提出一种英语文本概念理解方法,该方法通过挖掘英语文本中关键词语的深层概念语义特征,获取英语文本的概念化的语义信息,并通过英语文本和问题中词语之间的概念语义依存关系,最终获取更为准确的答案。
技术实现要素:
本发明的一种英语文本概念理解方法的总体处理流程如图1所示,其中包括英语文本理解预处理模块、英语文本关键词概念语义特征提取模块、英语文本关键词及其概念语义依存关系提取模块、候选答案选择模块。
其中的英语文本理解预处理模块的处理流程是:第一,输入待阅读的英语文本及问题,并对待阅读的英语文本及问题分别进行分词、去除停用词、单词小写化处理,并对待阅读的英语文本分句形成有若干句子组成的文本序列;第二,对第一步中输出的文本序列进行分词、短语切分处理、词性标注,得到待阅读英语文本及问题的单词和短语组成的序列;第三,分别输出待阅读英语文本中句子序列的名词及名词短语、动词、形容词列表,问题句子序列的名词及名词短语、动词、形容词列表。
其中的英语文本关键词概念语义特征提取模块的处理流程是:第一,输入英语文本预处理模块中待阅读英语文本及问题的预处理结果,选择其中的名词或名词短语;第二,通过使用预先训练好的阅读理解数据集,对第一步中选择的名词或名词短语进行词向量表示;第三,分别计算问题中名词或名词短语与待阅读英语文本中选取的名词或名词短语之间的余弦相似度,并对计算结果进行降序排序,选择排名前五的结果作为候选的关键名词或名词短语;第四,通过计算候选的关键名词或名词短语与其所属候选概念的共现概率,如果共现概率结果为零,则继续执行第五步,否则选择概率最大的结果作为候选关键名词或名词短语所属的概念;第五,若候选的关键名词或名词短语与其所属概念的共现概率结果为零,则直接使用当前名词或名词短语作为其所属概念;第六,对选取的关键词进行重要程度计算,通过计算当前关键词同其上下文单词之间的权重系数,然后加权求和得到当前关键词最终重要程度得分。
其中英语文本关键词及其概念语义依存关系提取模块的处理流程是:第一,输入候选的关键名词或名词短语的词向量表示;第二;输入候选的关键名词或名词短语的概念化表示;第三,使用预先训练好的语义依存关系集,提取候选关键名词或名词短语之间的语义依存关系;第四,使用预先训练好的概念依存关系集,提取候选关键名词或名词短语之间的概念依存关系;第五,计算候选关键名词或名词短语的语义依存关系和概念依存关系之间的余弦相似度,并对计算的结果进行降序排序,并选择相似度最高的结果作为当前关键词及其概念语义依存关系。
其中候选答案选择模块的处理流程是:第一,输入候选关键名词或名词短语的概念化表示;第二,输入已经选取的关键词及其概念语义依存关系;第三,构建概念语义图模型,其中使用候选关键名词或短语的概念化表示作为节点,使用已经选取的关键词及其概念语义依存关系作为边;第四,计算概念语义图模型中各个节点向量同所有节点加权平均向量之间的欧式距离,并将此欧式距离的概率分布作为节点的权重值;第五,选择权重值最高的节点作为最终答案。
本发明的定义如下:
1、单词词性标注结构
本发明中的词性标注是对待阅读文本和问题中的单词进行单词词性标注,主要标注名词、动词和形容词,其标注格式如下所示:
单词1[#词性1*#词性2*#词性3*……]
单词2[#词性1*#词性2*#词性3*……]
……
单词n[#词性1*#词性2*#词性3*……]
2、分词及短语切分结构
本发明中的分词及短语切分是对待阅读文本和问题中的名词或名词短语进行切分,其切分格式如下所示:
名词或名词短语1/分词及短语切分标记1
名词或名词短语2/分词及短语切分标记2
……
名词或名词短语n/分词及短语切分标记n
3、名词或名词短语所属概念结构
通常,同一个名词在不同文本中表示的语义概念不尽相同,比如,“apple”有表示“水果”的概念,也有表示“公司”的概念。本发明中的名词或名词短语所属的概念是对待阅读文本和问题中的名词或名词短语进行概念划分,确保当前名词或名词短语的语义概念准确,其结构如下所示:
名词或名词短语1[所属可能概念1,所属可能概念2,……,所属可能概念n]
名词或名词短语2[所属可能概念1,所属可能概念2,……,所属可能概念n]
……
名词或名词短语n[所属可能概念1,所属可能概念2,……,所属可能概念n]
4、关键词及其概念语义依存关系结构
通常要准确理解文本语义,除了理解文本中的关键词语信息之外,还需进一步确定关键词语之间的语义依存关系,不同的语义依存关系通常表达了文本不同的语义。本发明中的关键词及其概念语义依存关系是指:对待阅读英语文本和问题中的名词或名词短语之间的语义依存关系进行提取和确定,其结构如下所示:
[关键词1依存关系12关键词2]
[关键词1依存关系13关键词3]
[关键词1依存关系14关键词4]
……
[关键词2依存关系23关键词3]
[关键词2依存关系24关键词4]
……
[关键词n依存关系n,n 1关键词n 1]
[关键词n依存关系n,n 2关键词n 2]
[概念1依存关系12概念2]
[概念1依存关系13概念3]
[概念1依存关系14概念4]
……
[概念2依存关系23概念23]
[概念2依存关系24概念24]
……
[概念n依存关系n,n 1概念n,n 1]
[概念n依存关系n,n 2概念n,n 2]
……
5、关键词之间有向边结构
以关键词语为节点,词语之间的权重值为边组成图模型,有向边是指词语a到词语b的权重值和词语b到词语a的权重值是不同的,其结构如下所示:
[关键词1有向边权重值12关键词2][关键词2有向边权重值21关键词1]
[关键词1有向边权重值13关键词3][关键词3有向边权重值31关键词1]
……
[关键词1有向边权重值1n关键词n][关键词n有向边权重值n1关键词1]
[关键词2有向边权重值23关键词3][关键词3有向边权重值32关键词2]
[关键词2有向边权重值24关键词4][关键词4有向边权重值42关键词2]
……
[关键词2有向边权重值2n关键词n][关键词n有向边权重值n2关键词2]
[关键词n有向边权重值n,n 1关键词n 1][关键词n 1有向边权重值n 1,n关键词n]
[关键词n有向边权重值n,n 2关键词n 2][关键词n 2有向边权重值n 2,n关键词n]
……
[关键词n有向边权重值n,2n关键词2n][关键词2n有向边权重值2n,n关键词n]。
6、名词或名词短语所属某一概念计算公式
为了确定某一名词或名词短语在当前文本中所属某一特定的概念,使用当前名词或名词短语与其所属概念的共现关系来计算,计算公式如下:
7、待阅读英语文本与问题中名词或名词短语语义相似度计算公式
在公式(2)中,分别计算问题中名词或名词短语同待阅读文本中名词或短语的相似度,词向量可以通过训练得出。
8、当前词语同其上下文词语之间的权重系数计算公式
在公式(3)中,分子表示当前词语i同其上下文中词语j之间的相关性,分母表示当前词语i同其上下文n个词语之间的相关性之和。
9、当前词语或短语重要性程度计算公式
在公式(3)中已经得到当前词语i与其上下文词语j之间的权重系数,通过加权求和该权重系数可以得到当前单词或短语在文本中的重要性程度得分,其计算公式如下:
10、关键词语之间的有向边权重值计算公式
候选关键词语在当前图模型中的权重值是指候选关键词语同其他所有相邻节点词语之间的欧式距离之和中的占比,它的计算公式如下:
11、词语权重值归一化处理公式
在获得词语权重值之后,通过归一化处理获得词语的归一化得分,降序排序后选择最终的答案词语。英语文本中词语的归一化得分是指词语在当前图模型中的权重值与所有词语在当前图模型中的权重值之和的比值,其计算公式如下:
公式(6)中,词语i在当前图模型中的权重值由计算公式(5)计算得出。
如图2所示,所述的英语文本理解预处理模块处理流程如下:
p201开始;
p202读入待阅读的英语文本和问题;
p203将待阅读的文本和问题使用标识隔开;
p204对待阅读的文本和问题进行去停用词处理;
p205对待阅读的文本和问题进行单词小写化处理;
p206对待阅读的文本和问题进行分句,组成若干句子序列;
p207对待阅读的文本和问题进行分词和短语切分处理;
p208对分词后的文本序列进行词性标注,并输出待阅读文本中名词或名词短语、动词和形容词列表;
p209对分词后的问题序列进行词性标注,并输出问题中名词或名词短语、动词和形容词列表;
p210分别统计分词后待阅读文本和问题序列中单词总数;
p211对分词后的待阅读文本序列进行分组处理,每20个单词一组隔开,不足20个单词的小组用null补齐;
p212对分词后的问题序列进行分组处理,通常问题序列少于20个单词,使用null补齐;
p212结束。
如图3所示,所述的英语文本关键词概念语义特征提取模块处理流程如下:
p301开始;
p302读入分词后待阅读文本和问题序列结果;
p303计算待阅读文本和问题中词语的分布式词向量,生成200维向量表示;
p304使用公式(2)分别计算问题中名词或名词短语与待阅读英语文本中名词或名词短语之间的余弦相似度;
p305对计算的余弦相似度结果进行降序排序,选择排名前五的结果作为待阅读文本与问题相关的候选关键词或短语;
p306使用公式(1)计算候选关键词或短语与其所属候选概念的共现概率;
p307判断关键词与其所属候选概念的共现概率是否为零,如果为零,则执行p308,否则执行p309;
p308使用当前候选关键词或短语作为其所属概念,当前候选关键词或短语的200维词向量表示即为其所属的概念化表示结果;
p309对当前候选关键词与其所属可能概念的共现概率降序排序,确定当前候选关键词所属的概念;
p310对确定的关键词所属的概念进行向量化表示,生成200维词向量表示;
p311使用公式(3)计算当前概念在其上下文中的权重系数;
p312使用公式(4)计算当前概念在其上下文中的重要性得分;
p313对当前概念在其上下文中的重要性得分进行降序排序,获得当前候选关键词概念语义特征;
p314结束。
如图4所示,所述的英语文本关键词及其概念语义依存关系提取模块处理流程如下:
p401开始;
p402读取候选关键名词或名词短语的词向量表示结果;
p403读取候选关键名词或名词短语的概念化表示结果;
p404将概念化表示结果输入预先训练的概念语义依存关系集,选取排序靠前的两种候选概念依存关系;
p405对候选概念依存关系进行位置编码,即计算概念依存关系与所属概念对之间的位置距离;
p406融合候选关键名词或短语的概念化表示以及概念依存关系位置编码,并将融合后的向量输入卷积神经网络;
p407融合候选关键名词或名词短语的词向量表示以及概念依存关系位置编码,并将融合后的向量输入另一个卷积神经网络;
p408分别对p406和p407的输入向量进行卷积层计算,p406和p407共享网络参数;
p409对p408的卷积计算结果分别进行词向量和概念向量池化操作;
p410对p409分别获取的池化操作结果进行拼接;
p411使用softmax函数对p410的拼接结果进行分类,获得最后的概念依存关系结果;
p412结束。
如图5所示,所述的候选答案选择模块处理流程如下:
p501开始;
p502输入候选关键名词或名词短语的概念化表示;
p503输入已经选取的关键词及其概念语义依存关系;
p504使用候选关键名词或短语的概念化表示作为节点,使用已经选取的关键词及其概念语义依存关系作为边,构建概念语义图模型;
p505使用公式(5)计算概念语义图模型中任意两个节点之间的欧式距离;
p506使用公式(6)计算节点之间的有向边权重值;
p507对所有节点之间的权重值进行降序排序;
p508选择最大的节点间的权重值,并将此节点候选关键词及其概念作为最后答案;
p509结束。
本发明理解方法解决了英语文本概念理解的问题,其回答的结果比传统的英语文本理解方法结果更准确。一篇英语文本以及和该英语文本相关的问题通过该理解方法处理后,最后能够得到该问题的相关概念答案。
附图说明
图1是本发明方法的总体处理流程图;
图2是本发明方法的英语文本预处理模块处理流程图;
图3是本发明方法的英语文本关键词概念语义特征提取模块处理流程图;
图4是本发明方法的英语文本关键词及其概念语义依存关系提取模块处理流程图;
图5是本发明方法的候选答案选择模块处理流程图。
具体实施方式
本发明的一种英语文本概念理解方法的具体实施方式分为如下五个步骤。
第一步骤:执行“英语文本预处理模块”
本发明实施方式中输入的英语文本取材于斯坦福阅读理解数据集中标准阅读理解文本、问题和答案,该英语文本内容和问题如下所示:
待阅读的英语文本内容如下:
onjune14,1946,donaldtrumpwasborninnewyorkcity.aftergraduatingfromthemilitaryschoolin1964,trumpenteredthewhartonschooloftheuniversityofpennsylvania.incollege,trumpcarefullylearnednewknowledgeinthebusinessfieldandcultivatedasmartbusinesssavvy.incollege,trumpenteredarealestatecompanyfoundedbyhisfather.hisfather'sbusinesssecretstaughttrumpmoreexperience.whenhewasasenior,hewantedtomakeabreakthroughinthebusinessworld.fromtimetotime,hewentabroadtoinspectthelatestandfutureeconomictrends,anddeeplyrealizedthatthemostimportantcorporatebusinessstrategytodayis"marketing."in1999,trumpwasagainactiveininvestmentactivitiesintherealestate,casino,entertainment,sportsandtransportationsectors.hisassetshaveexceeded$3billion.
问题及答案如下:
wherewasdonaldtrumpborn?
groundtruthanswers:[newyork][newyork][newyork]
prediction:newyork
whenwasdonaldtrumpborn?
groundtruthanswers:[1946][1946][1946]
prediction:1946
whendidtrumpbecomethepresidentoftheunitedstates?
groundtruthanswers:<noanswer>
prediction:<noanswer>
(1)对待阅读的英语文本进行分词并词性标注后,生成的词性标注结果如下所示:
on[on#in*],[#null*],june[june#nnp*],[#null*],14[14#cd*],[#null*],1946[1946#cd*],[#null*],donald[donald#nnp*],[#null*],trump[trump#nnp*],[#null*],was[is#vbd*],[#null*],born[born#vbn*],[#null*],in[in#in*],[#null*],newyork[newyork#nnp*],[#null*],city[city#nnp*],[#null*],after[after#in*],[#null*],graduating[graduate#vbg*],[#null*],from[from#in*],[#null*],the[the#dt*],[#null*],military[military#jj*],[#null*],school[school#nn*],[#null*],in[in#in*],[#null*],1964[1946#cd*],[#null*],trump[trump#nnp*],[#null*],entered[enter#vbd*],[#null*],the[the#dt*],[#null*],wharton[wharton#nnp*],[#null*],school[school#nnp*],[#null*],of[of#in*],[#null*],the[the#dt*],[#null*],university[university#nnp*],[#null*],of[of#in*],[#null*],pennsylvania[pennsylvania#nnp*],[#null*],college[college#nn*],[#null*],trump[trump#nnp*],[#null*],carefully[carefully#rb*],[#null*],learned[learn#vbd*],[#null*],new[new#jj*],[#null*],knowledge[knowledge#nn*],[#null*],in[in#in*],[#null*],the[the#dt*],[#null*],business[business#nn*],[#null*],field[field#nn*],[#null*],and[and#cc*],[#null*],cultivated[cultivate#vbd*],[#null*],a[a#dt*],[#null*],smart[smart#jj*],[#null*],business[business#nn*],[#null*],savvy[savvy#nn*],[#null*],in[in#in*],[#null*],college[college#nn*],[#null*],trump[trump#nnp*],[#null*],entered[enter#vbd*],[#null*],a[a#dt*],[#null*],real[real#jj*],[#null*],estate[estate#nn*],[#null*],company[company#nn*],[#null*],founded[found#vbd*],[#null*],by[by#in*],[#null*],his[his#prp*],[#null*],father[father#nn*],[#null*],his[his#prp*],[#null*],father[father#nn*],[#null*],business[business#nn*],[#null*],secrets[secret#nns*],[#null*],taught[teach#vbd*],[#null*],trump[trump#nnp*],[#null*],more[more#jjr*],[#null*],experience[experience#nn*],[#null*],when[when#wrb*],[#null*],he[he#prp*],[#null*],was[is#vbd*],[#null*],a[a#dt*],[#null*],senior[senior#jj*],[#null*],he[he#prp*],[#null*],wanted[want#vbd*],[#null*],make[make#vb*],[#null*],breakthrough[breakthrough#nn*],[#null*],business[business#nn*],[#null*],world[world#nn*],[#null*],from[from#in*],[#null*],time[time#nn*],[#null*],to[to#to*],[#null*],time[time#nn*],[#null*],he[he#prp*],[#null*],went[go#vbd*],[#null*],abroad[abroad#rb*],[#null*],inspect[inspect#vb*],[#null*],latest[latest#jjs*],[#null*],and[and#cc*],[#null*],future[future#jj*],[#null*],economic[economic#jj*],[#null*],trends[trend#nns*],[#null*],and[and#cc*],[#null*],deeply[deeply#rb*],[#null*],realized[realize#vbd*],[#null*],that[that#in*],[#null*],the[the#dt*],[#null*],most[most#rbs*],[#null*],important[important#jj*],[#null*],corporate[corporate#jj*],[#null*],business[business#nn*],[#null*],strategy[strategy#nn*],[#null*],today[today#nn*],[#null*],is[is#vbz*],[#null*],marketing[market#nn*],[#null*],in[in#in*],[#null*],1999[1999#cd*],[#null*],trump[trump#nnp*],[#null*],was[is#vbd*],[#null*],again[again#rb*],[#null*],active[active#jj*],[#null*],in[in#in*],[#null*],investment[investment#nn*],[#null*],activities[activity#nns*],[#null*],real[real#jj*],[#null*],estate[estate#nn*],[#null*],casino[casino#nn*],[#null*],entertainment[entertainment#nn*],[#null*],sports[sport#nns*],[#null*],and[and#cc*],[#null*],transportation[transportation#nn*],[#null*],sectors[sector#nns*],[#null*],his[his#prp*],[#null*],assets[asset#nns*],[#null*],have[have#vbp*],[#null*],exceeded[exceed#vbn*],[#null*],billion[billion#cd*][#null*]
问题文本词性标注结果:
[question#1,where[where#wrb*],was[is#vbd*],donald[donald#nnp*],trump[trump#nnp*],born[born#vbn*]]
[question#2,when[when#wrb*],was[is#vbd*],donald[donald#nnp*],trump[trump#nnp*],born[born#vbn*]]
[question#3,when[when#wrb*],did[do#vbd*],trump[trump#nnp*],become[become#vb*],the[the#dt*],president[president#nnp*],of[of#in*],the[the#dt*],united[united#nnp*],states[states#nnp*]]
(2)对待阅读英语文本进行名词或名词短语切块后,生成的名词或名词短语切块结果如下所示:
/on[on#in*]/june[june#nnp*]/14[14#cd*]/1946[1946#cd*]/donaldtrump[donaldtrump#nnp*]/was[is#vbd*]/born[born#vbn*]/in[in#in*]/newyork[newyork#nnp*]/city[city#nnp*]/after[after#in*]/graduating[graduate#vbg*]/from[from#in*]/the[the#dt*]/military[military#jj*]/school[school#nn*]/in[in#in*]/1964[1946#cd*]/trump[trump#nnp*]/entered[enter#vbd*]/the[the#dt*]/wharton[wharton#nnp*]/school[school#nnp*]/of[of#in*]/the[the#dt*]/university[university#nnp*]/of[of#in*]/pennsylvania[pennsylvania#nnp*]/college[college#nn*]/trump[trump#nnp*]/carefully[carefully#rb*]/learned[learn#vbd*]/new[new#jj*]/knowledge[knowledge#nn*]/in[in#in*]/the[the#dt*]/business[business#nn*]/field[field#nn*]/and[and#cc*]/cultivated[cultivate#vbd*]/a[a#dt*]/smart[smart#jj*]/business[business#nn*]/savvy[savvy#nn*]/in[in#in*]/college[college#nn*]/trump[trump#nnp*]/entered[enter#vbd*]/a[a#dt*]/real[real#jj*]/estate[estate#nn*]/company[company#nn*]/founded[found#vbd*]/by[by#in*]/his[his#prp*]/father[father#nn*]/his[his#prp*]/father[father#nn*]/business[business#nn*]/secrets[secret#nns*]/taught[teach#vbd*]/trump[trump#nnp*]/more[more#jjr*]/experience[experience#nn*]/when[when#wrb*]/he[he#prp*]/was[is#vbd*]/a[a#dt*]/senior[senior#jj*]/he[he#prp*]/wanted[want#vbd*]/make[make#vb*]/breakthrough[breakthrough#nn*]/business[business#nn*]/world[world#nn*]/from[from#in*]/time[time#nn*]/to[to#to*]/time[time#nn*]/he[he#prp*]/went[go#vbd*]/abroad[abroad#rb*]/inspect[inspect#vb*]/latest[latest#jjs*]/and[and#cc*]/future[future#jj*]/economic[economic#jj*]/trends[trend#nns*]/and[and#cc*]/deeply[deeply#rb*]/realized[realize#vbd*]/that[that#in*]/the[the#dt*]/most[most#rbs*]/important[important#jj*]/corporate[corporate#jj*]/business[business#nn*]/strategy[strategy#nn*]/today[today#nn*]/is[is#vbz*]/marketing[market#nn*]/in[in#in*]/1999[1999#cd*]/trump[trump#nnp*]/was[is#vbd*]/again[again#rb*]/active[active#jj*]/in[in#in*]/investment[investment#nn*]/activities[activity#nns*]/real[real#jj*]/estate[estate#nn*]/casino[casino#nn*]/entertainment[entertainment#nn*]/sports[sport#nns*]/and[and#cc*]/transportation[transportation#nn*]/sectors[sector#nns*]/his[his#prp*]/assets[asset#nns*]/have[have#vbp*]/exceeded[exceed#vbn*]/billion[billion#cd*]/
第二步骤:执行“英语文本关键词概念语义特征提取模块”
(1)在第一步的基础上,对预处理后的英语文本中名词或名词短语进行词向量表示,生成200维的向量表示形式,其部分词语的词向量表示结果如下:
business:[-2.59042799e-011.56627929e 00-1.55328619e 001.16095312e-018.28763063e-041.13678873e 001.07951772e 006.84864402e-01-3.05663824e-01-9.47709203e-01-9.14580405e-011.78567588e-019.55694243e-021.46830523e 004.33245957e-015.62674284e-01-1.20297933e 00-3.30155420e 002.39313304e-015.39111316e-011.37632453e 00-5.18846154e-01-1.72100616e 00-7.81766713e-018.12833726e-01-6.71297908e-01-2.55080253e-01-9.63443890e-023.75874341e-02-1.85547560e-01-5.85621536e-01-1.32061994e 00-1.15084291e 001.19156432e 006.12567663e-01-4.88826752e-012.49715820e-01-1.13945462e-01-4.11442071e-017.39667833e-017.39755988e-016.95835590e-01-2.12423000e-02-6.15605295e-01-8.16631496e-01-4.95573401e-011.19313017e-01-2.32566208e-01-7.09587812e-01-2.01330781e 006.02940023e-012.97293991e-01-8.00344229e-012.30241203e 00-7.61904955e-01-4.40068513e-015.51879108e-014.55911309e-017.38105178e-011.89581215e 001.05786526e 001.08144259e 00-2.95965791e-01-9.70735908e-017.77064264e-011.23684049e 00-1.16662085e 001.25651217e 00-5.55168211e-011.06070185e 006.27060890e-011.89990854e 00-4.69613642e-013.78263712e-011.10785294e 005.32317340e-011.78810787e 00-1.90469372e 00-6.32371485e-015.51381886e-01-2.27715746e-01-1.09175253e 00-1.68093562e 001.41336232e-018.34236890e-02-2.33603567e-01-1.16054632e-01-6.98961541e-025.63091874e-011.23674989e 00-5.66389710e-02-9.67171729e-014.83761936e-01-1.42906487e-016.26178682e-011.67304240e-021.24199748e 00-3.84036869e-014.28546637e-01-6.10349886e-021.66938648e-013.96170676e-014.63583052e-01-9.17208970e-01-5.85813046e-01-6.92225516e-01-9.51395154e-01-6.38596237e-013.08472663e-01-5.36561683e-02-7.41630197e-02-1.49298131e-01-6.27747476e-011.96738780e 002.24164918e-013.24346006e-012.43802595e 00-3.70077312e-018.90044630e-019.88620240e-031.34185135e-016.29028857e-01-1.10365725e 00-3.79670203e-015.07582128e-017.99743831e-01-8.41116905e-01-1.29741180e 00-2.33467355e-01-8.41176212e-012.48963069e-025.14094293e-011.13484383e 00-7.05592871e-015.25330365e-01-3.20291258e-02-2.67125368e-01-4.17263657e-012.82960385e-01-9.61873531e-013.51352364e-01-6.42272592e-01-2.43765354e 002.40605965e-01-1.68029988e 003.13021213e-01-9.40301061e-011.38528538e 00-1.08122826e-01-8.73246133e-011.75076559e-015.97331882e-01-1.39861321e 00-3.17869186e-013.57864857e-01-1.39695033e-016.25059903e-019.22169983e-01-8.13591704e-02-9.10186917e-02-4.52748924e-011.60742199e 004.60776240e-01-7.78419793e-01-1.02559980e-021.52036750e 00-1.84489512e 00-6.73551381e-011.20446825e 002.46079013e-018.50453556e-01-7.69736469e-011.84337378e-011.13760567e 004.32253242e-01-6.89828217e-01-7.06000090e-019.13547158e-011.73478693e-011.42103589e 007.80944586e-018.11390400e-01-7.83208683e-02-5.13207555e-01-1.06880486e 00-7.83280969e-01-5.65739870e-01-2.30160475e-016.54523432e-01-9.24793482e-01-2.84793049e-011.01340890e 009.57501888e-012.22771317e-013.90049964e-011.60163665e 002.16183096e-017.16380775e-018.28462422e-011.71259999e-01]
savvy:[0.069218140.089851480.10130031-0.019755760.006138750.068603860.078789920.15682952-0.079765-0.013646780.051020790.005485060.030242850.114461910.095686190.04286152-0.13500483-0.08419026-0.015132310.110235350.061459270.00069024-0.063343860.02397627-0.132117210.10869574-0.015751150.017123190.10889407-0.03390257-0.08128685-0.007747710.07443068-0.025113450.026554450.101936940.01160171-0.037764570.18400234-0.053459580.037630710.011958120.2022180.0132231-0.191672670.045005110.0789397-0.015897780.13028212-0.06922863-0.060182860.08444316-0.03776797-0.14269106-0.134482880.012592830.01702782-0.009260380.013568610.03965648-0.088553320.06088002-0.10612214-0.099055830.062418610.1188715-0.042423820.066925070.02515559-0.008782430.02058123-0.006001620.051462260.104959760.068061180.033433730.11794326-0.11481091-0.121389660.02585844-0.03958427-0.02640601-0.05624481-0.01868268-0.158912080.03756193-0.030258330.019444920.10282031-0.03299379-0.004757290.14685485-0.065874230.01492470.04896393-0.065900620.11573595-0.035082690.0751999-0.048957030.015999830.07251011-0.09170596-0.02906534-0.048467960.06372514-0.07596011-0.02131839-0.052093910.13131613-0.22141725-0.00611135-0.04040148-0.034279790.0410597-0.026994510.046951930.012511580.031600170.00255954-0.07341788-0.05954413-0.102094120.006794430.007872010.00381293-0.05103155-0.142176510.05005223-0.006104790.06478029-0.16465960.09607032-0.09883969-0.051453640.009642170.142135780.01998526-0.06588282-0.05293030.062167540.02636117-0.113124620.01608072-0.01465175-0.00260696-0.049011780.004952740.056345780.000280760.069872150.098695730.111747460.01768979-0.12532751-0.04939596-0.05851451-0.175506790.242330760.03458880.08057397-0.026261010.00672352-0.038371410.01871823-0.079347920.01752568-0.1338290.04785170.0792998-0.026512870.051252430.091845760.156555270.03717348-0.01241744-0.081044520.068903020.01926608-0.10523076-0.11265913-0.096595820.042667850.04144118-0.14290997-0.02705677-0.020532940.05827883-0.01985832-0.059657820.14561172-0.046909780.103589340.040194280.067878480.01593667-0.13111904-0.067076090.081446040.04385952]
……
(2)计算待阅读文本与问题中词语之间的相似度,并取相似度排序靠前的20个相关词语,部分结果如下所示:
与词语business最相关的前20个词语为:
financial0.6826215982437134
consumer0.6628485918045044
banking0.6589778661727905
marketing0.6573569178581238
corporate0.6446224451065063
firms0.6148818731307983
investments0.6143110990524292
insurance0.6100685596466064
retail0.604107141494751
financing0.5926154851913452
management0.5904277563095093
buying0.5883773565292358
businesses0.5873700380325317
markets0.5868954062461853
employees0.5846246480941772
customer0.583165168762207
marketplace0.5821336507797241
enterprise0.5816493034362793
welfare0.5800684690475464
jobs0.5792907476425171
与词语born最相关的前20个词语为:
married0.6355774402618408
christened0.5665861368179321
novelist0.5470004677772522
actress0.5364381670951843
apprenticed0.530538022518158
maclean0.5302119255065918
interred0.525600790977478
beatrice0.525336503982544
desmond0.5203564763069153
beecher0.5200093388557434
lafcadio0.5169895887374878
corinne0.5124737024307251
louise0.5076141357421875
patricia0.5058313012123108
anna0.5041660070419312
sarah0.5030679702758789
ballerina0.5028273463249207
angela0.500499963760376
died0.4998953342437744
anton0.4994434416294098
与词语assets最相关的前20个词语为:
investments0.7772245407104492
profits0.7662760019302368
revenues0.7530128359794617
revenue0.7483336925506592
funds0.7441127896308899
investors0.7420588731765747
firms0.7401308417320251
debts0.7333177924156189
loans0.7315413951873779
shareholders0.7296478748321533
businesses0.7258060574531555
employees0.7210573554039001
costs0.7146604061126709
expenses0.7083866596221924
purchases0.7039198279380798
earnings0.7029934525489807
subsidies0.7015666961669922
payments0.7007849812507629
goods0.6995357275009155
contracts0.6982542872428894
与词语government最相关的前20个词语为:
governments0.7221421003341675
administration0.6922751069068909
regime0.6741224527359009
parliament0.6391890048980713
electorate0.6347169876098633
prc0.6314117908477783
legislature0.6243986487388611
legislation0.6075990796089172
authorities0.6037262082099915
senate0.5914326906204224
parliamentary0.5884313583374023
coalition0.5815113186836243
policies0.5814124345779419
policy0.5776035785675049
junta0.5771560668945312
privatization0.5765987038612366
economy0.5755563974380493
taxation0.5730693340301514
autonomy0.5683175325393677
kmt0.5680544376373291
与词语merchant最相关的前20个词语为:
shipyards0.6756232976913452
kaiserliche0.6664568185806274
sailing0.6592236757278442
ship0.6573899984359741
tonnage0.647135853767395
ships0.635455846786499
marine0.6257590651512146
fleet0.6237657070159912
marines0.6213807463645935
warship0.6195002794265747
aboard0.619187593460083
sailors0.6180980205535889
frigate0.6149691343307495
navy0.612155556678772
surveyors0.6083635687828064
harbours0.6074026823043823
submarines0.6049712896347046
hms0.6042121052742004
escort0.6040891408920288
cruiser0.6031404733657837
与词语entrepreneurs最相关的前20个词语为:
journalists0.6671593189239502
professionals0.6548882722854614
intellectuals0.6519579887390137
pioneers0.6428285241127014
hackers0.6421672105789185
capitalists0.6376326084136963
consultants0.6374378204345703
comedians0.6370235681533813
economists0.6340476274490356
executives0.633492112159729
distributors0.6326943635940552
businessmen0.6269378662109375
firms0.6252130270004272
producers0.6200482249259949
filmmakers0.6186020970344543
ventures0.6152722239494324
investors0.6144982576370239
charities0.6126831769943237
engineers0.6111494302749634
writers0.6104857325553894
与词语president最相关的前20个词语为:
presidency0.7305980324745178
chairman0.7099910974502563
governor0.6958410739898682
presidents0.6945462226867676
taoiseach0.6547336578369141
chancellor0.6463114023208618
senator0.6372398138046265
presidential0.6284170150756836
deputy0.6119073629379272
democrat0.6081264019012451
incumbent0.5973949432373047
eisenhower0.5925225019454956
senate0.5860650539398193
reagan0.583078145980835
mayor0.5807799696922302
secretary0.5800341367721558
pinochet0.578060507774353
resigns0.576712429523468
ould0.5762377381324768
taya0.5750265121459961
……
(3)根据关键名词或名词短语的相似度排序选择候选关键词
排名前五的关键词如下:
donaldtrump:0.8765474881873130
business:0.7866258742548321
businesssavvy:0.7456898574232562
government:0.7120154685214523
assets:0.6956024587541035
……
(4)计算候选关键词所属某一概念的概率
候选关键词donaldtrump所属概念概率计算结果如下:
donaldtrump[merchant,entrepreneurs,president]
属于merchant(商人)这一概念的概率:0.8532689542652531
属于entrepreneurs(企业家)这一概念的概率:0.8325621421303526
属于president(总统)这一概念的概率:0.2102145741021432
……
由关键词所属某一概念的概率结果可以得到,当前待阅读文本中词语donaldtrump属商人或者企业家的概念可能性要远大于总统这一概念。
第三步骤:执行“英语文本关键词及其概念语义依存关系提取模块”
(1)提取关键名词之间的语义依存关系,部分结果如下:
[donaldtrump,bornin,newyork]
[donaldtrump,borninyear,1946]
[donaldtrump,universityof,pennsylvania]
……
关键名词或名词短语概念化后,在知识库中提取概念之间的候选语义依存关系如下:
[donaldtrump,bornin,newyork]
[donaldtrump,presidentof,unitedstate]
……
(2)对候选的语义依存关系进行选择确认
在提取出候选关键名词或名词短语之间的语义依存关系,以及候选关键名词或名词短语概念化后的候选语义依存关系之后,将两种语义依存关系分别输入两个独立的卷积网络进行特征提取,在这一步中,为了充分获取两种语义依存关系的语义特征,使用三层卷积网络结构分别获取隐藏层语义信息。
从隐藏层输出的信息分别由两个独立的卷积网络池化层,在这一步中,使用平均池化操作对隐藏层信息进行加权平均,池化层的输出结果输入到全连接层。
在全连接层,对两个独立的池化层输出结果进行拼接构成新的特征向量。
全连接层的拼接向量通过softmax函数进行分类计算,获得候选语义依存关系的概率得分,并对概率得分降序排序,选择概率最大的结果作为最终的语义依存关系。
第四步骤:执行“候选答案选择模块”
输入第二步骤中提取的候选关键名词或短语的概念化训练表示,即200维的向量。
输入第三步骤中提取的名词或名词短语之间的概念语义依存关系。
使用候选关键名词或短语的概念表示作为节点,概念语义依存关系作为边构建概念语义图模型。
使用公式(5)计算图模型中节点之间的有向边权重值。
在获得词语权重值之后,通过公式(6)归一化处理获得词语的归一化得分,并降序排序获得最终的答案词语。
1.一种英语文本概念理解方法,其特征是:包括一个由顺序连接的英语文本理解预处理模块、英语文本关键词概念语义特征提取模块、英语文本关键词及其概念语义依存关系提取模块、候选答案选择模块组成的理解模型,其理解方法包括如下步骤:
(1)英语文本理解预处理模块输入待阅读的英语文本和问题,对待阅读的英语文本和问题分别进行分词、去除停用词、单词小写化处理;对分词、去除停用词、单词小写化处理后的待阅读的英语文本和问题进行词性标注、短语切分处理;输出处理的待阅读的英语文本和问题的预处理结果;
(2)英语文本关键词概念语义特征提取模块,首先,输入英语文本预处理模块中待阅读英语文本的预处理结果及问题的预处理结果,对待阅读英语文本和问题中的名词或名词短语进行标注;第二,计算待阅读英语文本和问题中的标注名词或名词短语的词向量;第三,计算待阅读文本中名词或名词短语与问题中名词或名词短语之间的余弦相似度,并对计算的余弦相似度结果进行降序排序,选择排名前五的结果作为候选的关键名词或名词短语;第四,通过计算候选的关键名词或名词短语与其所属候选概念的共现概率,如果共现概率结果为零,则继续执行第五步,否则选择概率最大的结果作为候选关键名词或名词短语所属的概念;第五,若候选的关键名词或名词短语与其所属概念的共现概率结果为零,则直接使用当前名词或名词短语作为其所属概念;第六,计算当前关键词同其上下文单词之间的权重系数,然后加权求和得到当前关键词最终重要程度得分;
(3)英语文本关键词及其概念语义依存关系提取模块输入候选的关键名词或名词短语的词向量表示;输入候选的关键名词或名词短语的概念化表示;使用预先训练好的语义依存关系集,提取候选关键名词或名词短语之间的语义依存关系;使用预先训练好的概念依存关系集,提取候选关键名词或名词短语之间的概念依存关系;计算候选关键名词或名词短语的语义依存关系和概念依存关系之间的余弦相似度,并对计算的结果进行降序排序,选择相似度最高的结果作为当前关键词及其概念语义依存关系;
(4)候选答案选择模块输入候选关键名词或名词短语的概念化表示;输入已经选取的关键词及其概念语义依存关系;使用候选关键名词或短语的概念化表示作为节点,使用已经选取的关键词及其概念语义依存关系作为边构建概念语义表示图模型;计算概念语义图模型中各个节点向量同所有节点加权平均向量之间的欧式距离,并将此欧式距离的概率分布作为节点的权重值;选择权重值最高的节点作为最终答案。
2.根据权利要求1所述的理解方法,其特征是:所述的英语文本理解预处理模块处理步骤如下:
p201开始;
p202读入待阅读的英语文本和问题;
p203将待阅读的文本和问题使用标识隔开;
p204对待阅读的文本和问题进行去停用词处理;
p205对待阅读的文本和问题进行单词小写化处理;
p206对待阅读的文本和问题进行分句,组成若干句子序列;
p207对待阅读的文本和问题进行分词和短语切分处理;
p208对分词后的文本序列进行词性标注,并输出待阅读文本中名词或名词短语、动词和形容词列表;
p209对分词后的问题序列进行词性标注,并输出问题中名词或名词短语、动词和形容词列表;
p210分别统计分词后待阅读文本和问题序列中单词总数;
p211对分词后的待阅读文本序列进行分组处理,每20个单词一组隔开,不足20个单词的小组用null补齐;
p212对分词后的问题序列进行分组处理,通常问题序列少于20个单词,使用null补齐;
p212结束。
3.根据权利要求1所述的理解方法,其特征是:所述的英语文本关键词概念语义特征提取模块的计算公式定义如下:
(1)名词或名词短语所属某一概念计算公式
英语文本中名词或名词短语所属某一概念的概率是指当前文本中名词与概念的共现次数与训练文本集中名词与其所属所有可能概念的共现次数和的比值,它的计算公式如下:
(2)待阅读英语文本与问题中名词或名词短语语义相似度计算公式
英语文本与问题中名词或短语的语义相似度是指英语文本与问题中词语词向量内积与其词向量模的比值,它的计算公式如下:
在计算公式(2)中,词向量可以通过训练得出;
(3)当前词语同其上下文词语之间的权重系数计算公式
当前词语同其上下文词语之间的权重系数是指当前词语与其上下文中某一词语之间的相关性,同当前词语与其上下文之间所有词语的相关性之和的比值,它的计算公式如下:
(4)当前词语或短语重要性程度计算公式
在公式(3)中已经得到当前词语i与其上下文词语j之间的权重系数,通过加权求和该权重系数可以得到当前单词或短语在文本中的重要性程度得分,其计算公式如下:
4.根据权利要求3所述的理解方法,其特征是:所述的英语文本关键词概念语义特征提取模块处理步骤如下:
p301开始;
p302读入分词后待阅读文本和问题序列结果;
p303计算待阅读文本和问题中词语的分布式词向量,生成200维向量表示;
p304使用公式(2)分别计算问题中名词或名词短语与待阅读英语文本中名词或名词短语之间的余弦相似度;
p305对计算的余弦相似度结果进行降序排序,选择排名前五的结果作为待阅读文本与问题相关的候选关键词或短语;
p306使用公式(1)计算候选关键词或短语与其所属候选概念的共现概率;
p307判断关键词与其所属候选概念的共现概率是否为零,如果为零,则执行p308,否则执行p309;
p308使用当前候选关键词或短语作为其所属概念,当前候选关键词或短语的200维词向量表示即为其所属的概念化表示结果;
p309对当前候选关键词与其所属可能概念的共现概率降序排序,确定当前候选关键词所属的概念;
p310对确定的关键词所属的概念进行向量化表示,生成200维词向量表示;
p311使用公式(3)计算当前概念在其上下文中的权重系数;
p312使用公式(4)计算当前概念在其上下文中的重要性得分;
p313对当前概念在其上下文中的重要性得分进行降序排序,获得当前候选关键词概念语义特征;
p314结束。
5.根据权利要求1所述的分析方法,其特征是:所述的英语文本关键词及其概念语义依存关系提取模块处理步骤如下:
p401开始;
p402读取候选关键名词或名词短语的词向量表示结果;
p403读取候选关键名词或名词短语的概念化表示结果;
p404将概念化表示结果输入预先训练的概念语义依存关系集,选取排序靠前的两种候选概念依存关系;
p405对候选概念依存关系进行位置编码,即计算概念依存关系与所属概念对之间的位置距离;
p406融合候选关键名词或短语的概念化表示以及概念依存关系位置编码,并将融合后的向量输入卷积神经网络;
p407融合候选关键名词或名词短语的词向量表示以及概念依存关系位置编码,并将融合后的向量输入另一个卷积神经网络;
p408分别对p406和p407的输入向量进行卷积层计算,p406和p407共享网络参数;
p409对p408的卷积计算结果分别进行词向量和概念向量池化操作;
p410对p409分别获取的池化操作结果进行拼接;
p411使用softmax函数对p410的拼接结果进行分类,获得最后的概念依存关系结果;
p412结束。
6.根据权利要求1所述的理解方法,其特征是:所述的候选答案选择模块的计算公式定义如下:
(1)关键词语之间的有向边权重值计算公式
候选关键词语在当前图模型中的权重值是指候选关键词语同其他所有相邻节点词语之间的欧式距离之和中的占比,它的计算公式如下:
(2)词语权重值归一化处理公式
英语文本中词语的归一化得分是指词语在当前图模型中的权重值与所有词语在当前图模型中的权重值之和的比值,它的计算公式如下:
7.根据权利要求6所述的理解方法,其特征是:所述的候选答案选择模块处理步骤如下:
p501开始;
p502输入候选关键名词或名词短语的概念化表示;
p503输入已经选取的关键词及其概念语义依存关系;
p504使用候选关键名词或短语的概念化表示作为节点,使用已经选取的关键词及其概念语义依存关系作为边,构建概念语义图模型;
p505使用公式(5)计算概念语义图模型中任意两个节点之间的欧式距离;
p506使用公式(6)计算节点之间的有向边权重值;
p507对所有节点之间的权重值进行降序排序;
p508选择最大的节点间的权重值,并将此节点候选关键词及其概念作为最后答案;
p509结束。
技术总结