训练样本获取及大模型优化训练方法和装置与流程

    专利2026-01-29  5


    本公开涉及人工智能,特别涉及大模型、深度学习和自然语言处理等领域的训练样本获取及大模型优化训练方法和装置。


    背景技术:

    1、大模型是指使用大量文本数据训练得到的深度学习模型,可以生成自然语言文本或理解自然语言文本的含义等。大模型的出现可能从根本上改变人类与机器的交互方式,重塑整个计算生态系统。


    技术实现思路

    1、本公开提供了训练样本获取及大模型优化训练方法和装置。

    2、一种训练样本获取方法,包括:

    3、响应于确定符合优化触发条件,将从预定数据源收集到的可作为大模型输入的查询作为候选查询;

    4、从所述候选查询中筛选出目标查询,所述目标查询为所述大模型无法正确处理的查询;

    5、根据各目标查询,分别构建出对应的训练样本,所述训练样本用于对所述大模型进行优化训练。

    6、一种大模型优化训练方法,包括:

    7、获取训练样本,所述训练样本为根据各目标查询分别构建出的对应的训练样本,所述目标查询为从候选查询中筛选出的大模型无法正确处理的查询,所述候选查询为从预定数据源收集到的可作为所述大模型输入的查询;

    8、利用所述训练样本对所述大模型进行优化训练。

    9、一种训练样本获取装置,包括:查询挖掘模块、问题发现模块和样本构建模块;

    10、所述查询挖掘模块,用于响应于确定符合优化触发条件,将从预定数据源收集到的可作为大模型输入的查询作为候选查询;

    11、所述问题发现模块,用于从所述候选查询中筛选出目标查询,所述目标查询为所述大模型无法正确处理的查询;

    12、所述样本构建模块,用于根据各目标查询,分别构建出对应的训练样本,所述训练样本用于对所述大模型进行优化训练。

    13、一种大模型优化训练装置,包括:样本获取模块和模型训练模块;

    14、所述样本获取模块,用于获取训练样本,所述训练样本为根据各目标查询分别构建出的对应的训练样本,所述目标查询为从候选查询中筛选出的大模型无法正确处理的查询,所述候选查询为从预定数据源收集到的可作为所述大模型输入的查询;

    15、所述模型训练模块,用于利用所述训练样本对所述大模型进行优化训练。

    16、一种电子设备,包括:

    17、至少一个处理器;以及

    18、与所述至少一个处理器通信连接的存储器;其中,

    19、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。

    20、一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。

    21、一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如以上所述的方法。

    22、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。



    技术特征:

    1.一种训练样本获取方法,包括:

    2.根据权利要求1所述的方法,其中,所述从所述候选查询中筛选出目标查询包括:

    3.根据权利要求2所述的方法,其中,所述响应于确定所述回复为与所述候选查询不相匹配的错误回复包括:

    4.根据权利要求1、2或3所述的方法,其中,所述根据各目标查询,分别构建出对应的训练样本包括:

    5.根据权利要求4所述的方法,其中,

    6.根据权利要求5所述的方法,其中,

    7.根据权利要求1、2或3所述的方法,还包括:

    8.一种大模型优化训练方法,包括:

    9.根据权利要求8所述的方法,其中,

    10.根据权利要求8或9所述的方法,还包括:

    11.一种训练样本获取装置,包括:查询挖掘模块、问题发现模块和样本构建模块;

    12.根据权利要求11所述的装置,其中,

    13.根据权利要求12所述的装置,其中,

    14.根据权利要求11、12或13所述的装置,其中,

    15.根据权利要求14所述的装置,其中,

    16.根据权利要求15所述的装置,其中,

    17.根据权利要求11、12或13所述的装置,其中,

    18.一种大模型优化训练装置,包括:样本获取模块和模型训练模块;

    19.根据权利要求18所述的装置,其中,

    20.根据权利要求18或19所述的装置,其中,

    21.一种电子设备,包括:

    22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行权利要求1-10中任一项所述的方法。

    23.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1-10中任一项所述的方法。


    技术总结
    本公开提供了训练样本获取及大模型优化训练方法和装置,涉及大模型、深度学习以及自然语言处理等人工智能领域。其中的训练样本获取方法可包括:响应于确定符合优化触发条件,将从预定数据源收集到的可作为大模型输入的查询作为候选查询;从候选查询中筛选出目标查询,目标查询为大模型无法正确处理的查询;根据各目标查询,分别构建出对应的训练样本,所述训练样本用于对大模型进行优化训练。应用本公开所述方案,可提升大模型的推理能力等。

    技术研发人员:冯知凡,吴华,佘俏俏,吴甜
    受保护的技术使用者:北京百度网讯科技有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-94393.html

    最新回复(0)