本发明涉及智能轨道交通技术领域,尤其涉及一种轨道交通知识库构建方法及系统。
背景技术:
城市轨道交通具有设备多、系统复杂、运行时间长、运行条件复杂等特性,随着开行线路的持续增长,该系统产生了大量类型丰富的数据。近年来,随着各类信息技术的快速发展,各类从数据分析出发的模式识别、机器学习、数据挖掘技术日益成熟,包括轨道交通领域在内的各行各业使用工业过程中产生的数据进行知识获取,进行信息化数据化转型。在列车运行、设备维修、线路调度、业务培训等各个过程中,大量的数据被记录下来,利用这些数据进行学习和挖掘,具有重要意义。
面对纷繁杂乱的各类数据,要对各类数据进行整理分析,获得数据间的关联关系,建立基于知识图谱的知识数据库。例如调度相关业务,存在针对各类调度场景,如应急场景的一整套处理方案。再如针对维修业务,维修工单记录了各类故障发生的原因,故障发生的描述和故障的解决方案,同样具有较大的信息量,这类数据多以文本的形式记录下来。
因此,有必要从自然语言处理的角度出发,提出一种针对轨道交通的知识图谱构建方法。
技术实现要素:
本发明提供一种轨道交通知识库构建方法及系统,用以解决现有技术中没有形成系统的轨道交通知识图谱的缺陷。
第一方面,本发明提供一种轨道交通知识库构建方法,包括:
获取轨道交通知识语料库;
提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;
基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;
采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
进一步地,所述获取轨道交通知识语料库,具体包括:
获取具备多种文本类型的轨道交通语料,将所述轨道交通语料转化为预设文本格式进行存储;
将所述预设文本格式进行去除处理,得到去除后的文本格式;
基于tf-idf算法对所述去除后的文本格式进行分词处理,得到所述轨道交通知识语料库。
进一步地,所述将所述预设文本格式进行去除处理,得到去除后的文本格式,具体包括:
采用标点去除算法,去除所述预设文本格式中的常用标点符号和特殊字符,并去除常见词汇,得到所述去除后的文本格式。
进一步地,所述提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示,具体包括:
获取所述所有知识语料中的预设高维词向量,将所述预设高维词向量转化至预设低维词向量;
构建单层神经网络,将所述预设低维词向量中任一中心词的上下文相关词输入至所述单层神经网络,得到所述单层神经网络输出的所述任一中心词对应的词向量;
待所有中心词全部处理完毕,得到所述所有知识语料的基础向量表示。
进一步地,所述基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示,具体包括:
获取所述知识语料的基础向量表示中任一词汇的前端词语概率分布表达和后端词语概率分布表达;
采用双向的长短期记忆网络对所述前端词语概率分布表达和所述后端词语概率分布表达进行向量表示学习,得到所述长短期记忆网络向量表示。
进一步地,所述采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示,具体包括:
采用专家打分方式,分别对所述基础向量表示和所述长短期记忆网络向量进行打分,获得词语权重矩阵;
基于所述词语权重矩阵,得到所述知识库的最终向量表示。
进一步地,所述基于所述词语权重矩阵,得到所述知识库的最终向量表示,具体包括:
将所述基础向量表示和所述长短期记忆网络向量进行拼接,得到拼接向量;
在所述拼接向量之前添加所述词语权重矩阵中任一专家对任一分词的权重打分,获得所述任一分词的知识表达;
将所述任一分词的知识表达存储于基础数据库中得到所述知识库的最终向量表示。
第二方面,本发明还提供一种轨道交通知识库构建系统,包括:
获取模块,用于获取轨道交通知识语料库;
第一计算模块,用于提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;
第二计算模块,用于基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;
融合模块,用于采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述轨道交通知识库构建方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述轨道交通知识库构建方法的步骤。
本发明提供的轨道交通知识库构建方法及系统,通过采用轨道交通关键词提取方法,利用长短期记忆网络进行训练,并采用基于专家知识的分词权重改进算法,构建了比较全面和完整的轨道交通知识图库,为大数据分析提供了准确的数据支持。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的轨道交通知识库构建方法的流程示意图;
图2是本发明提供的长短期记忆网络的结构图;
图3是本发明提供的轨道交通知识库构建系统的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术中存在的问题,本发明提出一种轨道交通知识库构建方法,如图1所示,包括:
s1,获取轨道交通知识语料库;
s2,提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;
s3,基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;
s4,采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
具体地,本发明提出的轨道交通知识库的构建方法,主要包括以下几个步骤:获取轨道交通知识语料库,计算知识的基础向量表示,计算基于长短期记忆网络的向量表示,以及融合专家知识获得最终的知识表示,得到供轨道交通领域使用的知识库。
本发明通过采用轨道交通关键词提取方法,利用长短期记忆网络进行训练,并采用基于专家知识的分词权重改进算法,构建了比较全面和完整的轨道交通知识图库,为大数据分析提供了准确的数据支持。
基于上述实施例,该方法中步骤s1具体包括:
获取具备多种文本类型的轨道交通语料,将所述轨道交通语料转化为预设文本格式进行存储;
将所述预设文本格式进行去除处理,得到去除后的文本格式;
基于tf-idf算法对所述去除后的文本格式进行分词处理,得到所述轨道交通知识语料库。
其中,所述将所述预设文本格式进行去除处理,得到去除后的文本格式,具体包括:
采用标点去除算法,去除所述预设文本格式中的常用标点符号和特殊字符,并去除常见词汇,得到所述去除后的文本格式。
具体地,首先获取各类文本性质的轨道交通语料,如列车日常运行的调度处理手册、各类维修工单、列车运行日志、培训手册等,将常用的对应格式word、pdf和xml等格式转为txr格式存储;然后采用标点去除方法,去除包括句号、问号和逗号等符号,同时还去除其它特殊字符,以及常见词汇,如“把”、“你”、“我”等等;最后采用分词算法,如tf-idf算法将上述文本性质的轨道交通语料转化为多个或单个词语。
此处,tf-idf算法(termfrequency-inversedocumentfrequency)是一种针对关键词的统计分析方法,用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比,跟它在语料库出现的次数成反比。这种计算方式能有效避免常用词对关键词的影响,提高了关键词与文章之间的相关性。其中tf指的是某词在文章中出现的总次数,该指标通常会被归一化定义为tf=(某词在文档中出现的次数/文档的总词量),这样可以防止结果偏向过长的文档(同一个词语在长文档里通常会具有比短文档更高的词频)。idf逆向文档频率,包含某词语的文档越少,idf值越大,说明该词语具有很强的区分能力,idf=loge(语料库中文档总数/包含该词的文档数 1), 1的原因是避免分母为0,tfidf=tfxidf,tfidf值越大表示该特征词对这个文本的重要性越大。
本发明通过对轨道交通的原始文本材料进行一系列的文本处理,得到供后续计算向量表示的轨道交通知识语料库,实现了初步分类和整理。
基于上述任一实施例,该方法中步骤s2具体包括:
获取所述所有知识语料中的预设高维词向量,将所述预设高维词向量转化至预设低维词向量;
构建单层神经网络,将所述预设低维词向量中任一中心词的上下文相关词输入至所述单层神经网络,得到所述单层神经网络输出的所述任一中心词对应的词向量;
待所有中心词全部处理完毕,得到所述所有知识语料的基础向量表示。
具体地,由于中文的复杂性,经过前述实施例处理的语料库必然是维度极大的词库,若采用正交方式(如one-hot)方法进行编码将会导致维度爆炸的情况,同时这种正交方法无法获得词语知识间的相关关系。为减少词库维度,同时初步建立词语知识间的相关关系,采用词嵌入方法,将高维词向量转化至低维。
构建单层神经网络,输入为正交方式处理的词向量,一次输入为某一中心词上下文相关的词对应的词向量,输出为该中心词对应的词向量。如“回龙观地铁站入站口闸机设备故障”一文,输入为“回龙观”、“地铁站”、“入站口”、“设备”、“故障”的正交词向量,输出为“闸机”对应的基础词向量。由于网络结构仅有一层,隐藏层为线性单元,输出层为softmax回归。通过基于梯度下降和误差反向传播的机器学习训练方法,可得到基础向量表示。
本发明通过对初始语料库进行降维处理,降低了语料处理的复杂度,并采用单层神经网络得到基础向量表示。
基于上述任一实施例,该方法中步骤s3具体包括:
获取所述知识语料的基础向量表示中任一词汇的前端词语概率分布表达和后端词语概率分布表达;
采用双向的长短期记忆网络对所述前端词语概率分布表达和所述后端词语概率分布表达进行向量表示学习,得到所述长短期记忆网络向量表示。
具体地,前述实施例中获得的基础向量表示受限于简单的网络结构和静态的表达方式,在准备表达知识特点上尚有欠缺,为进一步提高知识表达的有效性,本发明基于语言模型设计利用长短期记忆网络的向量表示。某一个词汇tk可以用其前面的词语的概率分布表达,如下公式:
同时,由于之前获得了整个文本的全部词汇,因此该词汇tk同样可以用后面的词语表达,如
基于此,可以使用双向的长短期记忆网络进行向量表示学习,长短期记忆网络对于处理时间序列数据非常有效。元胞是长短期记忆网络的基本元素,包含输入(xt)、状态以及输出(ht)三部分,元胞能够保留状态信息,传递给下个元胞。因此,长短期记忆网络可以看成时间域的深度结构,其基本结构如图2所示。
本发明通过利用长短期记忆网络时间域的时序特征,得到基础向量表示的双向的长短期记忆网络向量表示。
基于上述任一实施例,该方法中步骤s4具体包括:
采用专家打分方式,分别对所述基础向量表示和所述长短期记忆网络向量进行打分,获得词语权重矩阵;
基于所述词语权重矩阵,得到所述知识库的最终向量表示。
其中,所述基于所述词语权重矩阵,得到所述知识库的最终向量表示,具体包括:
将所述基础向量表示和所述长短期记忆网络向量进行拼接,得到拼接向量;
在所述拼接向量之前添加所述词语权重矩阵中任一专家对任一分词的权重打分,获得所述任一分词的知识表达;
将所述任一分词的知识表达存储于基础数据库中得到所述知识库的最终向量表示。
具体地,通过前述几个实施例,获得了轨道交通领域基本文本词语的基础知识表示和长短期记忆网络表示。需要注意的是,这两种表示全部为计算机自主学习获得,针对词语的重要性的表示可能无法反应知识的实际重要性。因此,针对轨道交通专有词汇,采用专家打分方式,确定词语在轨道交通专业场景中的重要性。将筛选出的部分词汇交于不同专家,专家通过其自身理解,对词语的重要性进行打分,形成词语的权重矩阵w,确定该专有词汇的重要性。权重矩阵w具体如下:
其中wij代表专家j对第i个分词的权重打分。
通过这种方式引入人工专家知识,将专家知识与词语向量表达结合起来。首先讲上述两种向量表达拼接在一起,在之前增加专家知识权重,最终确定为该词语的知识表达,存于数据库作为知识图谱的基础,即,轨道交通词语表达向量。
本发明采用的关键词提取方案中基于专家知识的分词权重改进算法,较准确地对分词的权重高低进行了识别。
下面对本发明提供的轨道交通知识库构建系统进行描述,下文描述的轨道交通知识库构建系统与上文描述的轨道交通知识库构建方法可相互对应参照。
图3是本发明提供的轨道交通知识库构建系统的结构示意图,如图3所示,包括:获取模块31、第一计算模块32、第二计算模块33和融合模块34;其中:
获取模块31用于获取轨道交通知识语料库;第一计算模块32用于提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;第二计算模块33用于基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;融合模块34用于采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
本发明通过采用轨道交通关键词提取方法,利用长短期记忆网络进行训练,并采用基于专家知识的分词权重改进算法,构建了比较全面和完整的轨道交通知识图库,为大数据分析提供了准确的数据支持。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(communicationsinterface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行轨道交通知识库构建方法,该方法包括:获取轨道交通知识语料库;提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的轨道交通知识库构建方法,该方法包括:获取轨道交通知识语料库;提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的轨道交通知识库构建方法,该方法包括:获取轨道交通知识语料库;提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
1.一种轨道交通知识库构建方法,其特征在于,包括:
获取轨道交通知识语料库;
提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;
基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;
采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
2.根据权利要求1所述的轨道交通知识库构建方法,其特征在于,所述获取轨道交通知识语料库,具体包括:
获取具备多种文本类型的轨道交通语料,将所述轨道交通语料转化为预设文本格式进行存储;
将所述预设文本格式进行去除处理,得到去除后的文本格式;
基于tf-idf算法对所述去除后的文本格式进行分词处理,得到所述轨道交通知识语料库。
3.根据权利要求2所述的轨道交通知识库构建方法,其特征在于,所述将所述预设文本格式进行去除处理,得到去除后的文本格式,具体包括:
采用标点去除算法,去除所述预设文本格式中的常用标点符号和特殊字符,并去除常见词汇,得到所述去除后的文本格式。
4.根据权利要求1所述的轨道交通知识库构建方法,其特征在于,所述提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示,具体包括:
获取所述所有知识语料中的预设高维词向量,将所述预设高维词向量转化至预设低维词向量;
构建单层神经网络,将所述预设低维词向量中任一中心词的上下文相关词输入至所述单层神经网络,得到所述单层神经网络输出的所述任一中心词对应的词向量;
待所有中心词全部处理完毕,得到所述所有知识语料的基础向量表示。
5.根据权利要求4所述的轨道交通知识库构建方法,其特征在于,所述基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示,具体包括:
获取所述知识语料的基础向量表示中任一词汇的前端词语概率分布表达和后端词语概率分布表达;
采用双向的长短期记忆网络对所述前端词语概率分布表达和所述后端词语概率分布表达进行向量表示学习,得到所述长短期记忆网络向量表示。
6.根据权利要求1所述的轨道交通知识库构建方法,其特征在于,所述采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示,具体包括:
采用专家打分方式,分别对所述基础向量表示和所述长短期记忆网络向量进行打分,获得词语权重矩阵;
基于所述词语权重矩阵,得到所述知识库的最终向量表示。
7.根据权利要求6所述的轨道交通知识库构建方法,其特征在于,所述基于所述词语权重矩阵,得到所述知识库的最终向量表示,具体包括:
将所述基础向量表示和所述长短期记忆网络向量进行拼接,得到拼接向量;
在所述拼接向量之前添加所述词语权重矩阵中任一专家对任一分词的权重打分,获得所述任一分词的知识表达;
将所述任一分词的知识表达存储于基础数据库中得到所述知识库的最终向量表示。
8.一种轨道交通知识库构建系统,其特征在于,包括:
获取模块,用于获取轨道交通知识语料库;
第一计算模块,用于提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;
第二计算模块,用于基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;
融合模块,用于采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述轨道交通知识库构建方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述轨道交通知识库构建方法的步骤。
技术总结