本申请涉及人工智能和自然语言处理,特别是涉及一种基于提示工程的弱监督文本分类方法及系统。
背景技术:
1、文本分类是自然语言处理领域中的一类基础任务,并广泛应用于下游应用场景中,比如:问答系统、情感分析、事件检测以及领域内文本分类等。随着互联网的兴起,网络上在线文本数量增长迅速,对文本数据进行分类分析的需求也在飞速增长,而机器学习的发展则为大规模文本分类问题提供了诸多方法。
2、在现有方法中,关于文本分类需要大量带有标注信息的训练数据,通常获取过程非常费时费力,同时大多使用类别标签名称或类别关键词训练文本分类器,这会导致基于关键词匹配得到的伪标签信息存在噪声且无法被发现,从而导致分类器效果不佳。
3、鉴于此,提供一种减少人工标注文本数据的需求,同时提高分类器性能的基于提示工程的弱监督文本分类方法及系统是本领域技术人员亟待解决的技术问题。
技术实现思路
1、为解决上述技术问题,本发明的目的为提供一种基于提示工程的弱监督文本分类方法及系统,可以有效减少人工标注文本数据的需求,同时提高分类器性能。
2、本发明的第一个目的为提供一种基于提示工程的弱监督文本分类方法;
3、本发明提供的技术方案如下:
4、一种基于提示工程的弱监督文本分类方法,包括如下步骤:
5、获取无标签文本集合;
6、获取所述无标签文本集合的初始伪标签;
7、根据所述初始伪标签对预训练模型进行分类微调,以生成目标伪标签文本集合;
8、对所述目标伪标签文本集合进行噪声样本过滤;
9、根据过滤后的所述目标伪标签文本集合获取目标分类器,并通过所述目标分类器对待分类文本进行分类。
10、优选地,所述获取所述无标签文本集合的初始伪标签,具体包括:
11、通过预设的提示方法在所述无标签文本集合中获取文本分类任务的伪标签信息,其中,所述伪标签信息包括:置信度;
12、根据所述置信度筛选高质量伪标签,将所述高质量伪标签作为初始伪标签。
13、优选地,所述获取所述无标签文本集合的初始伪标签之后,还包括步骤:
14、通过预设方法将所述初始伪标签分为训练集和测试集。
15、优选地,所述根据所述初始伪标签对预训练模型进行分类微调,以生成目标伪标签文本集合,具体包括:
16、将所述训练集输入所述预训练模型中使用第一微调范式以获取候选伪标签集;
17、采用第二微调范式对所述候选伪标签集进行训练,以生成目标伪标签文本集合。
18、优选地,所述对所述目标伪标签文本集合进行噪声样本过滤,具体包括:
19、获取每个目标伪标签样本在每个类别下的概率分数;
20、根据所述概率分数计算出每个类别下的平均概率分数,并将所述平均概率分数作为该类别的置信度阈值;
21、根据所述置信度阈值和所述目标伪标签样本的真实标签获取噪声标签;
22、统计噪声标签与真实标签的数量,以得到噪声标签和真实标签的联合分布;
23、基于所述联合分布,利用不同过滤策略对噪声样本进行过滤。
24、优选地,所述过滤策略,具体包括:
25、筛除所述目标伪标签样本中与噪声标签和真实标签均不一致的样本;
26、将每个类别下的目标伪标签样本的概率分数进行升序排列,选取top-i个样本进行筛除;
27、选择联合分布中非对角单元的噪声样本进行过滤。
28、优选地,所述根据过滤后的所述目标伪标签文本集合获取目标分类器,具体包括:
29、将过滤后的所述目标伪标签文本集合输入分类器中,当所述分类器性能指标达到预设指标阈值,将输出最佳分类效果的分类器作为目标分类器。
30、本发明的第二个目的为提供一种基于提示工程的弱监督文本分类系统;
31、本发明提供的技术方案如下:
32、一种基于提示工程的弱监督文本分类系统,包括:第一获取模块、第二获取模块、生成模块、过滤模块和分类模块;
33、所述第一获取模块,用于获取无标签文本集合;
34、所述第二获取模块,用于获取所述无标签文本集合的初始伪标签;
35、所述生成模块,用于根据所述初始伪标签对预训练模型进行分类微调,以生成目标伪标签文本集合;
36、所述过滤模块,用于对所述目标伪标签文本集合进行噪声样本过滤;
37、所述分类模块,用于根据过滤后的所述目标伪标签文本集合获取目标分类器,并通过所述目标分类器对待分类文本进行分类。
38、本发明的第三个目的为提供一种电子设备;
39、本发明提供的技术方案如下:
40、一种电子设备,包括:
41、至少一个处理器;以及
42、与所述至少一个处理器通信连接的存储器,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行基于提示工程的弱监督文本分类方法任意一项所述的方法步骤。
43、本发明的第四个目的为提供一种计算机可读存储介质;
44、本发明提供的技术方案如下:
45、一种计算机可读存储介质,所述存储介质用于存储计算机程序,所述计算机程序用于使计算机执行基于提示工程的弱监督文本分类方法任意一项所述的方法步骤。
46、本发明提供的一种基于提示工程的弱监督文本分类方法,包括获取无标签文本集合;获取所述无标签文本集合的初始伪标签;根据所述初始伪标签对预训练模型进行分类微调,以生成目标伪标签文本集合;对所述目标伪标签文本集合进行噪声样本过滤;根据过滤后的所述目标伪标签文本集合获取目标分类器,并通过所述目标分类器对待分类文本进行分类;本方法通过根据初始伪标签对预训练模型进行分类微调生成目标伪标签文本集合并进行噪声样本过滤,从而提高了分类器的性能,同时减少了人工标注文本数据的需求。
47、本发明还提供了一种基于提示工程的弱监督文本分类系统,由于该系统与该基于提示工程的弱监督文本分类方法解决相同的技术问题,属于相同的技术构思,理应具有相同的有益效果,在此不再赘述。
1.一种基于提示工程的弱监督文本分类方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于提示工程的弱监督文本分类方法,其特征在于,所述获取所述无标签文本集合的初始伪标签,具体包括:
3.根据权利要求1所述的基于提示工程的弱监督文本分类方法,其特征在于,所述对所述目标伪标签文本集合进行噪声样本过滤,具体包括:
4.根据权利要求3所述的基于提示工程的弱监督文本分类方法,其特征在于,所述过滤策略,具体包括:
5.根据权利要求1所述的基于提示工程的弱监督文本分类方法,其特征在于,所述根据过滤后的所述目标伪标签文本集合获取目标分类器,具体包括:
6.一种基于提示工程的弱监督文本分类系统,其特征在于,包括:第一获取模块、第二获取模块、生成模块、过滤模块和分类模块;
7.一种电子设备,其特征在于,包括:
8.一种计算机可读存储介质,其特征在于,所述存储介质用于存储计算机程序,所述计算机程序用于使计算机执行权利要求1-5任意一项所述的方法。