本发明涉及通讯大数据,更具体的说是涉及一种海量涉诈实体的高效挖掘方法。
背景技术:
1、随着智能手机和移动网络的快速普及,诈骗短信活动也变得越来越猖獗。然而,为规避自动检测程序,诈骗短信中的信息往往呈现出高度的碎片化和多样性,给诈骗短信分析带来了巨大的挑战。因此,海量涉诈实体挖掘方法的研究成为了当今诈骗短信分析领域的热点问题之一。海量涉诈实体挖掘方法在反诈领域具有广泛的应用前景,可以帮助相关部门快速准确地分析诈骗短信数据,提取出其中的关键信息,为决策处置提供支持。同时,海量涉诈实体挖掘方法还可以应用于诈骗短信分类和过滤,比如可以根据正则表达式匹配规则将诈骗短信过滤掉,降低用户的受骗风险。在实际应用中,海量涉诈实体挖掘方法还可以与其他文本分析技术相结合,比如机器学习、自然语言处理等技术,进一步提高海量涉诈实体挖掘的准确率和效率。同时,海量涉诈实体挖掘方法还可以针对不同的诈骗短信数据集和场景进行定制化的优化,以满足不同需求和应用场景的要求。
2、海量涉诈实体挖掘虽然在很多领域有着广泛的应用,但仍然存在一些问题,主要包括以下几个方面:1.数据质量问题:短信数据的质量直接影响诈骗短信挖掘的效果,但诈骗短信数据的质量往往比较差,存在着格式不规范、语言混乱等问题,这些都会影响算法的准确性和效率。2.特征选择问题:诈骗短信画像挖掘需要从诈骗短信文本中提取特征,但如何选择合适的特征是一个难点,需要充分考虑特征的表达能力、泛化能力以及覆盖性等问题。3.算法选择问题:目前诈骗短信画像挖掘常用的算法包括文本分类、聚类、关联规则挖掘等,但如何选择合适的算法来解决具体的问题,需要考虑数据规模、数据结构、算法复杂度等多个因素。4.数据量庞大导致运行效率低的问题,随着数据的数量庞大,正则表达式的数量也相应的会增多,如何高效的解决运行效率的问题是技术难点。
技术实现思路
1、有鉴于此,本发明提供了一种海量涉诈实体的高效文本挖掘方法,用于解决背景技术中存在的技术问题。
2、为了实现上述目的,本发明采用如下技术方案:
3、一种海量涉诈实体的高效文本挖掘方法,包括以下步骤:
4、s1、获取涉诈实体,并对所述涉诈实体进行去隐私化处理;
5、s2、对去隐私化处理后的涉诈实体进行预处理,所述预处理包括数据清洗和过滤;
6、s3、对预处理后的涉诈实体进行特征提取,获取涉诈实体的关键词;
7、s4、依据提取的关键词对涉诈实体进行聚类;
8、s5、利用simhash算法对聚类后的涉诈实体进行去重;
9、s6、利用正则表达式对去重后的涉诈实体进行标注;
10、s7、利用hyperscan工具对标注后的正则表达式进行处理,编译生成hyperscan库;
11、s8、遍历所述hyperscan库后完成目标诈骗短信的匹配挖掘。
12、进一步地,还包括,将步骤s1-s8封装成用户自定义函数。
13、进一步地,步骤s1中对所述涉诈实体进行去隐私化处理,具体包括:
14、将涉诈实体中指定位置的敏感信息字符随机替换成其他同类字符。
15、进一步地,步骤s2中,对去隐私化处理后的涉诈实体进行数据清洗和过滤,具体包括:
16、利用数据清洗脚本和正则表达式将脱敏处理后的涉诈实体中的冗余字符、零宽字符乱码字符进行清洗过滤。
17、进一步地,所述步骤s3中,对预处理后的涉诈实体进行特征提取,获取涉诈实体的关键词,具体包括:
18、基于tf-idf算法提取预处理后的涉诈实体中出现次数和逆向类别频率最高的诈骗短信关键词;
19、将诈骗短信中平台的名称、以及出现次数和逆向类别频率最高的诈骗短信关键词一同作为涉诈实体的关键词。
20、进一步地,依据提取的关键词对涉诈实体进行聚类,具体包括以下步骤:
21、利用group_by方法将具有相同关键词的诈骗短信聚类为相似诈骗短信,统计相似诈骗短信数目,按照相似数目从大到小排序,并为相同关键词的诈骗短信标记相同的唯一索引。
22、进一步地,所述步骤s5中,利用simhash算法对聚类后的涉诈实体进行去重,具体包括:
23、将相似诈骗短信数目大于等于设定阈值的涉诈实体划分为不同的诈骗短信数据块,使用simhash算法对每一个诈骗短信数据块中涉诈实体进行去重;
24、将相似诈骗短信数目小于设定阈值的诈骗短信数据直接使用simhash算法进行去重。
25、进一步地,用simhash算法对每一个诈骗短信数据块中涉诈实体进行去重,具体包括以下步骤:
26、利用md5算法将每一个诈骗短信数据块中的每个关键词转化为二进制串;
27、将每个关键词二进制串进行加权求和,获取所述关键词对应诈骗短信的simhash值;
28、根据不同诈骗短信simhash值的海明距离判断相似度,将相似度满足一定阈值的诈骗短信身保存在simhash库中,完成海量涉诈实体的去重。
29、进一步地,所述步骤s6中利用正则表达式对去重后的涉诈实体进行标注,具体包括:
30、以“#”开头作为正则表达式的类别,“-”前为场景标签,“-”后为类别标签对去重后的涉诈实体进行标注。
31、进一步地,所述步骤s7利用hyperscan工具对标注后的正则表达式进行处理,具体包括:
32、对正则表达式中的前瞻、后顾、负前瞻、负后顾、模糊匹配符号进行替换删除处理,生成hyperscan能够识别的形式;
33、将替换删除处理后的正则表达式生成hyperscan库。
34、进一步地,用户自定义函数的数据处理流程如下:
35、加载正则表达式文件和hyperscan库,并将正则表达式文件和hyperscan库处理成广播形式;
36、遍历hyperscan库对每条诈骗短信数据进行粗粒度的正则匹配,粗粒度的正则能够匹配到数据时,调用相应id的未处理的正则表达式细粒度的匹配,并返回结果。
37、经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种海量涉诈实体的高效文本挖掘方法,该方法能够利用规则处理掉一部分质量差的数据,利用简单的工具高效地实现对数据的去重、聚类,从而得到具有代表性的诈骗短信,根据这些诈骗短信就可以作为标注的用例,使用正则表达式标注完成后即可覆盖到更多的诈骗短信上,从而达到准确、高效的数据挖掘效果。
1.一种海量涉诈实体的高效文本挖掘方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种海量涉诈实体的高效文本挖掘方法,其特征在于,还包括,将步骤s1-s8封装成自定义函数。
3.根据权利要求1所述的一种海量涉诈实体的高效文本挖掘方法,其特征在于,步骤s1中对所述涉诈实体进行去隐私化处理,具体包括:
4.根据权利要求1所述的一种海量涉诈实体的高效文本挖掘方法,其特征在于,步骤s2中,对去隐私化处理后的涉诈实体进行数据清洗和过滤,具体包括:
5.根据权利要求1所述的一种海量涉诈实体的高效文本挖掘方法,其特征在于,所述步骤s3中,对预处理后的涉诈实体进行特征提取,获取涉诈实体的关键词,具体包括:
6.根据权利要求1所述的一种海量涉诈实体的高效文本挖掘方法,其特征在于,依据提取的关键词对涉诈实体进行聚类,具体包括以下步骤:
7.根据权利要求6所述的一种海量涉诈实体的高效文本挖掘方法,其特征在于,所述步骤s5中,利用simhash算法对聚类后的涉诈实体进行去重,具体包括:
8.根据权利要求7所述的一种海量涉诈实体的高效文本挖掘方法,其特征在于,用simhash算法对每一个诈骗短信数据块中涉诈实体进行去重,具体包括以下步骤:
9.根据权利要求1所述的一种海量涉诈实体的高效文本挖掘方法,其特征在于,所述步骤s6中利用正则表达式对去重后的涉诈实体进行标注,具体包括:
10.根据权利要求1所述的一种海量涉诈实体的高效文本挖掘方法,其特征在于,所述步骤s7利用hyperscan工具对标注后的正则表达式进行处理,具体包括: