本发明涉及数据处理领域,特别是涉及一种敏感词纠正方法、电子设备及存储介质。
背景技术:
1、文本纠错任务是nlp的基础任务之一,通常作为后续nlp任务的支撑,后续nlp任务比如说文本匹配、文本消歧、文本检索、文本对话等;现有技术中,常常使用大语言模型来获取经常出现在一句话中的词组,如bert、chat-gpt等,但如果在后续的任务中使用大模型单纯实现纠错任务,会带来效率的困扰,同时也会带来成本的提升。尤其是对固定场景已知敏感词的情况下,如何低成本的准确实现纠错任务非常重要。
技术实现思路
1、针对上述技术问题,本发明采用的技术方案为:一种敏感词纠正方法,所述方法包括如下步骤:
2、s001,获取历史文本集k={k1,k2,…,ky,…,kp},ky是第y个历史文本,y的取值范围是1到p,p是历史文本的数量。
3、s002,对k1到kp进行分词,获取历史分词列表集m={m1,m2,…,my,…,mp},历史分词列表my={my,1,my,2,…,my,t,…,my,ey},my,t是ky进行分词后得到的第t个历史分词,t的取值范围是1到ey,ey是ky进行分词后得到的历史分词的数量。
4、s003,获取共现词组列表集u={u1,u2,…,uy,…,up},第y个共现词组列表uy={uy,1,uy,2,…,uy,α,…,uy,βy},uy中的第α个共现词组uy,α=(wy,α,1,wy,α,2),α的取值范围是1到βy,βy是第y个历史分词列表组成的共现词组的数量,βy=1/2×ey(ey-1),wy,α,1和wy,α,2不同且均属于my。
5、s004,获取uy,α对应的第一共现优先级q1y,α,从而获取第一共现优先级列表q1={q11,1……q11,β1,q12,1……q12,β2,…,q1y,1…q1y,α…q1y,βy,…,q1p,1……q1p,βp},且所述第一共现优先级列表中共现词组的第一共现优先级由高到低进行排列;其中,所述第一共现优先级q1y,α=[∑py=1by×dy]/[∑py=1by×(ey-1)],wy,α,1在ky中的位置列表ty1={ty1,1,ty1,2,…,ty1,a,…,ty1,by},wy,α,2在ky中的位置列表ty2={ty2,1,ty2,2,…,ty2,c,…,ty2,dy};
6、ty1,a是wy,α,1在ky中出现的第a个位置,a的取值范围是1到by,by是wy,α,1在ky中的出现次数;ty2,c是wy,α,2在ky中出现的第c个位置,c的取值范围是1到dy,dy是wy,α,2在ky中的出现次数。
7、s005,基于第一共现优先级在第一共现优先级列表中的位置,确定共现词组的共现概率,且基于共现词组的共现概率对目标文本的敏感词进行纠正,获取最终文本。
8、一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的敏感词纠正方法。
9、一种电子设备,包括处理器和上述的非瞬时性计算机可读存储介质。
10、本发明至少具有以下有益效果:
11、综上,获取历史文本集,对每一历史文本进行分词,获取历史分词集,获取共现词组列表,获取第一共现优先级列表,基于第一共现优先级在第一共现优先级列表中的位置,确定共现词组的共现概率,基于共现词组的共现概率对目标文本的敏感词进行纠正,获取纠正结果,本发明通过词语能够组成的词对数和共现词组组合的词对数的比值,进行排序,通过排序后的位置确定共现词组的共现概率,本发明在不仅仅依赖大模型的情况下,简单便捷地通过词频获取到共现概率,从而更加准确的进行纠正。
1.一种敏感词纠正方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的敏感词纠正方法,其特征在于,在s004后还包括:
3.根据权利要求2所述的敏感词纠正方法,其特征在于,在s004后还包括:
4.根据权利要求3所述的敏感词纠正方法,其特征在于,还包括:基于第一共现优先级在第一共现优先级列表中的位置、第二共现优先级在第二共现优先级列表中的位置和第三共现优先级在第三共现优先级列表中的位置,确定共现词组的共现概率。
5.根据权利要求4所述的敏感词纠正方法,其特征在于,在s010后还包括如下步骤:
6.根据权利要求2所述的敏感词纠正方法,其特征在于,距离函数df()为反函数。
7.根据权利要求1所述的敏感词纠正方法,其特征在于,s005中,基于第一共现优先级在第一共现优先级列表中的位置,确定共现词组的共现概率包括:共现概率为共现词组在第一共现优先级列表中的位置id的倒数。
8.根据权利要求2所述的敏感词纠正方法,其特征在于,s042具体包括:共现概率为共现词组在第一共现优先级列表中的位置id的倒数和在第二共现优先级列表中的位置id的倒数的和。
9.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项所述的敏感词纠正方法。
10.一种电子设备,其特征在于,包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质。
