模型混合精度确定方法、装置、设备及存储介质与流程

    专利2025-07-23  16


    本公开涉及人工智能,具体涉及神经网络模型,可应用于模型推理场景下,尤其涉及一种模型混合精度确定方法、装置、设备及存储介质。


    背景技术:

    1、混合精度推理是指模型在推理过程中,为模型各层选取高低不同推理精度进行推理的方式,以提高模型的推理效率。为了使模型在推理结果的准确性较高同时也具有较高的推理效率,需要为模型各层选取合适的推理精度。

    2、目前,需要依靠人工经验确定模型各层的推理精度,不能快速准确地确定出模型各层的推理精度。


    技术实现思路

    1、本公开提供了一种模型混合精度确定方法、装置、设备及存储介质,能够快速准确地确定出模型各层的推理精度。

    2、根据本公开的第一方面,提供了一种模型混合精度确定方法,包括:

    3、获取模型各层在第一推理精度下的第一输出特征,第一推理精度组合为运行模型各层的硬件所支持的最低推理精度;获取模型各层在最高推理精度下的第二输出特征,最高推理精度为运行模型各层的硬件所支持的最高推理精度;根据模型各层的第一输出特征和第二输出特征,确定模型各层的推理误差;根据模型各层的推理误差和预设误差阈值,确定模型各层的目标推理精度。

    4、根据本公开的第二方面,提供了一种模型混合精度确定装置,该装置包括:

    5、获取模块,用于获取模型各层在第一推理精度下的第一输出特征,第一推理精度为运行模型各层的硬件所支持的最低推理精度;获取模型各层在最高推理精度下的第二输出特征,最高推理精度为运行模型各层的硬件所支持的最高推理精度。

    6、误差模块,用于根据模型各层的第一输出特征和第二输出特征,确定模型各层的推理误差。

    7、处理模块,用于根据模型各层的推理误差和预设误差阈值,确定模型各层的目标推理精度。

    8、根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面的方法。

    9、根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行根据第一方面的方法。

    10、根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据第一方面的方法。

    11、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。



    技术特征:

    1.一种模型混合精度确定方法,所述方法包括:

    2.根据权利要求1所述的方法,所述根据所述模型各层的第一输出特征和第二输出特征,确定所述模型各层的推理误差,包括:

    3.根据权利要求2所述的方法,所述对所述第三输出特征对应的模型层的第一推理精度进行更新,包括:

    4.根据权利要求1-3任一项所述的方法,所述异常值包括非数值和无穷值。

    5.根据权利要求1-4任一项所述的方法,所述根据所述模型各层的第一输出特征和第二输出特征,确定所述模型各层的推理误差,包括:

    6.根据权利要求1-5任一项所述的方法,所述根据所述模型各层的推理误差和预设误差阈值,确定所述模型各层的目标推理精度,包括:

    7.根据权利要求6所述的方法,所述对所述目标层的推理精度进行更新,包括:

    8.一种模型混合精度确定装置,所述装置包括:

    9.根据权利要求8所述的装置,所述误差模块,具体用于:

    10.根据权利要求9所述的装置,所述误差模块,在对所述第三输出特征对应的模型层的推理精度进行更新时,具体用于:

    11.根据权利要求8-10任一项所述的装置,所述异常值包括非数值和无穷值。

    12.根据权利要求8-11任一项所述的装置,所述误差模块,具体用于:

    13.根据权利要求8-12任一项所述的装置,所述处理模块,具体用于:

    14.根据权利要求13所述的装置,所述处理模块,在所述对所述目标层的推理精度进行更新时,具体用于:

    15.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;

    16.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行根据权利要求1-7任一项所述的方法。

    17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7任一项所述的方法。


    技术总结
    本公开提供了一种模型混合精度确定方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及神经网络模型技术领域,可应用于模型推理场景下。具体实现方案包括:获取模型各层在第一推理精度下的第一输出特征,第一推理精度组合为运行模型各层的硬件所支持的最低推理精度;获取模型各层在最高推理精度下的第二输出特征,最高推理精度为运行模型各层的硬件所支持的最高推理精度;根据模型各层的第一输出特征和第二输出特征,确定模型各层的推理误差;根据模型各层的推理误差和预设误差阈值,确定模型各层的目标推理精度。本公开能够快速准确地确定出模型各层的推理精度。

    技术研发人员:龚孚
    受保护的技术使用者:北京百度网讯科技有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-89871.html

    最新回复(0)