一种模型纠错训练方法、装置、计算机设备及存储介质与流程

专利2026-06-12 1

本发明涉及人工智能，具体涉及一种模型纠错训练方法、装置、计算机设备及存储介质。

背景技术：

1、随着汽车智能化的发展，用户对于车载语音交互服务的要求越来越高，需要利用nlu(natural language understanding，自然语言理解)模型来为车载语音服务提供基础语义理解。

2、相关技术中，在进行nlu模型训练时，首先从线上系统采集文本数据，再将采集到的文本数据导入到nlu标注系统，由标注人员按照一定的标注规范对文本数据进行标注，运营人员再调用模型训练服务，使用标注好的文本数据进行模型训练，得到训练好的nlu模型上线到线上系统。

3、然而，发明人发现，在训练出模型之后，对于各个历史版本模型及标注数据目前都不会进行保存，导致后续已上线的模型，客户有bugfix的需求时，难以追溯和重新训练。

技术实现思路

1、有鉴于此，本发明提供了一种模型纠错训练方法、装置、计算机设备及存储介质，以解决已上线的模型无法追溯和重新训练的问题。

2、第一方面，本发明提供了一种模型纠错训练方法，所述方法包括：

3、响应于用户的模型训练需求，确定出所述模型训练需求中所需要进行训练的模型版本和用户指定的标注规范的版本；从关系表中查询所述模型版本对应的历史标注数据的版本，其中，所述关系表中维护有历史模型版本与其对应的标注数据的版本对应关系；利用所述标注规范对所述历史标注数据进行重新标注，得到重新标注后的标注数据；基于所述重新标注后的标注数据对所述模型版本对应的模型进行纠错训练，得到训练后的模型。

4、上述方案，通过在关系表中维护历史模型版本和与其对应的标准数据版本，即可在用户有模型训练需求时从关系表中查询模型版本对应的历史标注数据的版本，并通过指定的标注规范对历史标注数据重新标注，进而基于重新标注后的标注数据对模型进行纠错训练，在小规模改动现有功能架构及表结构情况下，实现了对历史版本的模型和标注数据的追溯和重新训练。

5、在一种可选的实施方式中，在得到训练后的模型之后，为本次训练利用的标注规范、重新标注后的标注数据及训练后的模型分别确定版本号，并将标注规范版本号、标注数据版本号及模型版本号更新到关系表中。

6、上述方案，进一步限定了在得到训练后的模型之后更新关系表的步骤，细化了方案。

7、在一种可选的实施方式中，所述模型训练需求还包括训练分支类型；所述训练分支类型包括维护分支和上线分支；所述维护分支用于响应用户日常更新维护的模型训练需求；所述上线分支用于响应用户对即将上线的模型的训练需求。

8、上述方案，通过将训练分支类型分为维护分支和上线分支，便于用户根据需求选取不同的分支，细化了方案。

9、在一种可选的实施方式中，当所述训练分支类型为维护分支时，所述方法还包括：基于所述重新标注后的标注数据对所述模型版本对应的模型进行纠错训练，得到训练后的模型及模型评估参数；为训练后的模型确定版本号，并将模型版本号及对应的模型评估参数更新到关系表中。

10、上述方案，进一步限定了当训练分支类型为维护分支时，将训练后的模型的模型评估参数也更新在关系表中，便于从日常更新维护过程中选取最优的训练后的模型。

11、在一种可选的实施方式中，当所述训练分支类型为上线分支时，所述方法还包括：选取模型评估参数最优的历史模型版本，生成模型训练需求。

12、上述方案，进一步限定了当训练分支类型为上线分支时，选取模型评估参数最优的历史模型版本，并基于该历史模型版本生成训练需求，进而进行训练和上线，细化了方案。

13、在一种可选的实施方式中，所述方法还包括：响应于用户的配置操作，生成用于进行关系表维护的用户界面，所述用于进行关系表维护的用户界面中分别配置有标注规范版本号、标注数据版本号及模型版本号的选取选项。

14、上述方案，进一步限定了用于进行关系表维护的用户界面，便于用户通过用于进行关系表维护的用户界面选取所需的标注规范版本号、标注数据版本号及模型版本号，细化了方案。

15、在一种可选的实施方式中，所述模型为自然语言理解模型，所述方法还包括：响应于用户的配置操作，生成用于进行标注规范管理的用户界面，所述用于进行标注规范管理的用户界面中分别配置有版本号、功能分类、所属模块、功能点名称及意向的选取选项。

16、上述方案，进一步限定了用于进行标注规范管理的用户界面，便于用户通过用于进行标注规范管理的用户界面选取所需的版本号、功能分类、所属模块、功能点名称及意向，细化了方案。

17、第二方面，本发明提供了一种模型纠错训练装置，所述装置包括：

18、版本确定模块，用于响应于用户的模型训练需求，确定出所述模型训练需求中所需要进行训练的模型版本和用户指定的标注规范的版本；

19、查询模块，用于从关系表中查询所述模型版本对应的历史标注数据的版本，其中，所述关系表中维护有历史模型版本与其对应的标注数据的版本对应关系；

20、标注模块，用于利用所述标注规范对所述历史标注数据进行重新标注，得到重新标注后的标注数据；

21、训练模块，用于基于所述重新标注后的标注数据对所述模型版本对应的模型进行纠错训练，得到训练后的模型。

22、第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的模型纠错训练方法。

23、第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的模型纠错训练方法。

技术特征：

1.一种模型纠错训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在得到训练后的模型之后，为本次训练利用的标注规范、重新标注后的标注数据及训练后的模型分别确定版本号，并将标注规范版本号、标注数据版本号及模型版本号更新到关系表中。

3.根据权利要求1所述的方法，其特征在于，所述模型训练需求还包括训练分支类型；所述训练分支类型包括维护分支和上线分支；所述维护分支用于响应用户日常更新维护的模型训练需求；所述上线分支用于响应用户对即将上线的模型的训练需求。

4.根据权利要求3所述的方法，其特征在于，当所述训练分支类型为维护分支时，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，当所述训练分支类型为上线分支时，所述方法还包括：

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

7.根据权利要求2所述的方法，其特征在于，所述模型为自然语言理解模型，所述方法还包括：

8.一种模型纠错训练装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至7中任一项所述的模型纠错训练方法。

技术总结
本发明涉及人工智能技术领域，公开了一种模型纠错训练方法、装置、计算机设备及存储介质。所述方法包括：响应于用户的模型训练需求，确定出所述模型训练需求中所需要进行训练的模型版本和用户指定的标注规范的版本；从关系表中查询所述模型版本对应的历史标注数据的版本，其中，所述关系表中维护有历史模型版本与其对应的标注数据的版本对应关系；利用所述标注规范对所述历史标注数据进行重新标注，得到重新标注后的标注数据；基于所述重新标注后的标注数据对所述模型版本对应的模型进行纠错训练，得到训练后的模型。上述方案，在实现模型纠错训练功能时，能够对历史版本的模型进行追溯。

技术研发人员：郭海建
受保护的技术使用者：镁佳（武汉）科技有限公司
技术研发日：
技术公布日：2024/4/29

转载请注明原文地址:https://wp.8miu.com/read-97749.html

专利

最新回复(0)