本发明涉及知识图谱技术领域,具体为基于知识图谱的文本高效精准噪词处理方法。
背景技术:
知识图谱(knowledgegraph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论,知识图谱,它能为学科研究提供切实的、有价值的参考;
但是目前的高效精准噪词处理方法在敏感词过滤通过完整的敏感词词库和文本单词进行匹配,在文本发现敏感词会将该词从文本过滤掉,并且只关注敏感词,口语环境中很多语音助词属于噪词,没有针对口语转文本的噪词过滤能力,同音同义词在过滤时容易处理不当误删除或漏删除,影响句意。
技术实现要素:
本发明提供基于知识图谱的文本高效精准噪词处理方法,可以有效解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于知识图谱的文本高效精准噪词处理方法,包括如下步骤:
s1、搭建需过滤词词库、搭建业务知识图谱添加业务相关词的各种同音词;
s2、给以上每个词添加权重;
s3、通过分词工具对文本进行分词;
s4、先通过业务知识图谱将文本同音词矫正为业务词并记录所有文本出现的业务词;
s5、矫正后的文本匹配过滤词,但记录的业务词保留不受过滤影响;
s6、输出过滤后文本。
根据上述技术方案,所述s1中过滤词词库与网络数据相连,并对于词库进行分类,包括政权、色情、暴力、近义和隐晦型词语,并对于其进行交叉语义交织网络的建立。
根据上述技术方案,所述s1中知识图谱记录了各种标签、概念、实体的关系;
所述知识图谱添加业务相关词,与过滤词词库相互引用,并对于重叠性词语进行标记,而且分析词语其后关系,是否产生新的词义,从而避免词语错误。
根据上述技术方案,所述s2中权重通过打分法、统计法、序列综合法、公式法、数理统计法、层次分析法和复杂度分析法中的一种或多种配合使用。
根据上述技术方案,所述s3中分词工具是根据语法统计规则或自定义词典将文本切分成单词片段工具,从而将词语分为1-5字的组合词语。
根据上述技术方案,所述s4中通过知识图谱与文本进行词语对照,并与过滤词相互对比,去除过滤词语,而一些分段型词语,进行分离与备注。
根据上述技术方案,所述s5中记录的业务词依然进行保存,接着引入到过滤词词库中,配合过滤词库进行筛选,同时配合文本匹配过滤词,从而降低错误率。
根据上述技术方案,所述s6中输出过滤后文本后需要人工进行判断的,需要进行批注,并对于词语进行标注、着色,待审阅人员同意后进行确定。
与现有技术相比,本发明的有益效果:本发明过滤文本数据,精确稳定可以灵活拓展和实时修改,能克服文本多音同义词的干扰,过滤噪词的同时完好保留句意,在口语转文本的场景提供了高效精准的噪词过滤处理能力。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明的结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
如图1所示,本发明提供技术方案,基于知识图谱的文本高效精准噪词处理方法,包括如下步骤:
s1、搭建需过滤词词库、搭建业务知识图谱添加业务相关词的各种同音词;
s2、给以上每个词添加权重;
s3、通过分词工具对文本进行分词;
s4、先通过业务知识图谱将文本同音词矫正为业务词并记录所有文本出现的业务词;
s5、矫正后的文本匹配过滤词,但记录的业务词保留不受过滤影响;
s6、输出过滤后文本。
根据上述技术方案,s1中过滤词词库与网络数据相连,并对于词库进行分类,包括政权、色情、暴力、近义和隐晦型词语,并对于其进行交叉语义交织网络的建立。
根据上述技术方案,s1中知识图谱记录了各种标签、概念、实体的关系;
知识图谱添加业务相关词,与过滤词词库相互引用,并对于重叠性词语进行标记,而且分析词语其后关系,是否产生新的词义,从而避免词语错误。
根据上述技术方案,s2中权重通过打分法、统计法、序列综合法、公式法、数理统计法、层次分析法和复杂度分析法中的一种或多种配合使用。
根据上述技术方案,s3中分词工具是根据语法统计规则或自定义词典将文本切分成单词片段工具,从而将词语分为1-5字的组合词语。
根据上述技术方案,s4中通过知识图谱与文本进行词语对照,并与过滤词相互对比,去除过滤词语,而一些分段型词语,进行分离与备注。
根据上述技术方案,s5中记录的业务词依然进行保存,接着引入到过滤词词库中,配合过滤词库进行筛选,同时配合文本匹配过滤词,从而降低错误率。
根据上述技术方案,s6中输出过滤后文本后需要人工进行判断的,需要进行批注,并对于词语进行标注、着色,待审阅人员同意后进行确定。
实施例2:
本发明提供技术方案,基于知识图谱的文本高效精准噪词处理方法:
s1、搭建需过滤词词库、搭建业务知识图谱添加业务相关词的各种同音词,过滤词库最好分类可提高复用性;
s2、给以上每个词添加权重;
s3、通过分词工具对文本进行分词,调节切词效果:
词权重:["收集"200,"集中"100]
文本:“喜欢收集中国自主创新的产品”
切词结果:“喜欢--收集--中国--自主--创新--的--产品”;
s4、先通过业务知识图谱将文本同音词矫正为业务词并记录所有文本出现的业务词:
文本:“嗯哈,我喜欢哈尔滨秋天大一的温暖”
结果:“嗯哈,我喜欢哈尔滨秋天大衣的温暖”[哈尔滨][大衣];
s5、矫正后的文本匹配过滤词,但记录的业务词保留不受过滤影响:
输入:“嗯哈,我喜欢哈尔滨秋天大衣的温暖”[哈尔滨][大衣]
噪词过滤:“我喜欢哈尔滨秋天大衣的温暖”;
6.输出过滤后文本。
与现有技术相比,本发明的有益效果:本发明过滤文本数据,精确稳定可以灵活拓展和实时修改,能克服文本多音同义词的干扰,过滤噪词的同时完好保留句意,在口语转文本的场景提供了高效精准的噪词过滤处理能力。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
1.基于知识图谱的文本高效精准噪词处理方法,其特征在于:包括如下步骤:
s1、搭建需过滤词词库、搭建业务知识图谱添加业务相关词的各种同音词;
s2、给以上每个词添加权重;
s3、通过分词工具对文本进行分词;
s4、先通过业务知识图谱将文本同音词矫正为业务词并记录所有文本出现的业务词;
s5、矫正后的文本匹配过滤词,但记录的业务词保留不受过滤影响;
s6、输出过滤后文本。
2.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述s1中过滤词词库与网络数据相连,并对于词库进行分类,包括政权、色情、暴力、近义和隐晦型词语,并对于其进行交叉语义交织网络的建立。
3.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述s1中知识图谱记录了各种标签、概念、实体的关系;
所述知识图谱添加业务相关词,与过滤词词库相互引用,并对于重叠性词语进行标记,而且分析词语其后关系,是否产生新的词义,从而避免词语错误。
4.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述s2中权重通过打分法、统计法、序列综合法、公式法、数理统计法、层次分析法和复杂度分析法中的一种或多种配合使用。
5.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述s3中分词工具是根据语法统计规则或自定义词典将文本切分成单词片段工具,从而将词语分为1-5字的组合词语。
6.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述s4中通过知识图谱与文本进行词语对照,并与过滤词相互对比,去除过滤词语,而一些分段型词语,进行分离与备注。
7.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述s5中记录的业务词依然进行保存,接着引入到过滤词词库中,配合过滤词库进行筛选,同时配合文本匹配过滤词,从而降低错误率。
8.根据权利要求1所述的基于知识图谱的文本高效精准噪词处理方法,其特征在于,所述s6中输出过滤后文本后需要人工进行判断的,需要进行批注,并对于词语进行标注、着色,待审阅人员同意后进行确定。
技术总结