矩阵传输加速器系统和方法与流程

    专利2025-12-07  3


    这通常涉及数据传输,更具体地涉及具有不同访问时间的数据存储器之间的大矩阵的移动。


    背景技术:


    技术实现思路

    1、在所描述的示例中,矩阵传输加速器经由数据传输处理器将外部数据存储器与本地数据存储器接口连接。数据可以包括输入特征映射存储元件,诸如大特征映射存储元件。可以通过列贴块/瓦片(tile)过程从外部数据存储器或本地数据存储器传输数据。可以部分或整体地、逐列或逐行处理或传输数据。如果以增量方式进行,则增量可以增量步长增加,直到每个单独部分完成。也可以对不完整的或者具有不相等数据部分或存储元件的任何信息执行填补(padding)。



    技术特征:

    1.一种存储器系统,包括:

    2.根据权利要求1所述的存储器系统,其中所述存储器加速器被配置为将所述输入特征映射的第三列贴块集从所述外部存储器传输到所述数据存储器的所述第二部分,使得所述第三列贴块集覆写所述数据存储器中的所述第一列贴块集。

    3.根据权利要求1所述的存储器系统,其中所述存储器加速器被配置为在所述第一列贴块集的所述传输之前将填补贴块集插入所述数据存储器的所述第二部分中,使得所述填补贴块集的每个贴块存储在所述数据存储器中,与所述填补贴块集的相邻贴块分隔所述预定数量的数据单元。

    4.根据权利要求1所述的存储器系统,进一步包括乘法器,其耦合到所述数据存储器并且被配置为将所述输入特征映射与所述滤波器系数乘数相乘以产生输出特征映射,其中所述存储器加速器被配置为在所述乘法器进行所述第一列贴块集的乘法期间将所述第二列贴块集传输到所述数据存储器的所述第二部分。

    5.根据权利要求4所述的存储器系统,其中所述存储器加速器被配置为在所述乘法器进行所述第一列贴块集的前半部分的乘法期间将所述第二列贴块集传输到所述数据存储器的所述第二部分。

    6.根据权利要求1所述的存储器系统,进一步包括乘法器,其耦合到所述数据存储器并且被配置为将所述输入特征映射与所述滤波器系数乘数相乘以产生输出特征映射,其中:

    7.根据权利要求1所述的存储器系统,进一步包括乘法器,其耦合到所述数据存储器并且被配置为将所述输入特征映射与所述滤波器系数乘数相乘以产生输出特征映射,其中:

    8.根据权利要求7所述的存储器系统,其中所述存储器加速器被配置为将所述输出特征映射的第二列贴块集存储在所述数据存储器中,使得所述输出特征映射的所述第二列贴块集与所述输出特征映射的所述第一列贴块集交错。

    9.根据权利要求1所述的存储器系统,其中所述存储器加速器被配置为:

    10.根据权利要求9所述的存储器系统,其中所述存储器加速器被配置为,基于所述输入特征映射不是大的输入特征映射,在处理所述输入特征映射之前,将整个所述输入特征映射传输到所述数据存储器的所述第二部分。

    11.根据权利要求1所述的存储器系统,进一步包括:

    12.根据权利要求1所述的存储器系统,进一步包括:

    13.一种方法,其包括:

    14.根据权利要求13所述的方法,进一步包括:

    15.根据权利要求14所述的方法,其中所述第二列贴块集的所述传输在对所述第一列贴块集的前半部分执行所述矩阵运算期间传输所述第二列集。

    16.根据权利要求13所述的方法,进一步包括将所述矩阵的第三列贴块集从所述外部存储器传输到所述数据存储器,使得所述第三列贴块集覆写所述数据存储器中的所述第一列贴块集。

    17.根据权利要求13所述的方法,进一步包括在所述第一列贴块集的所述传输之前将填补贴块集插入数据存储器中,使得所述填补贴块集的每个贴块被存储在所述数据存储器中,与所述填补贴块集的相邻贴块分隔所述预定数量的数据单元。

    18.根据权利要求13所述的方法,其中:

    19.根据权利要求13所述的方法,其中:

    20.根据权利要求19所述的方法,进一步包括将所述输出特征映射的第二列贴块集存储在所述数据存储器中,使得所述输出特征映射的所述第二列贴块集与所述输出特征映射的所述第一列贴块集交错。

    21.一种电路,其包括:

    22.根据权利要求21所述的电路,其中:

    23.根据权利要求21所述的电路,其中:

    24.根据权利要求21所述的电路,进一步包括所述处理单元。

    25.根据权利要求24所述的电路,其中所述处理单元包括矩阵乘法单元。

    26.根据权利要求21所述的电路,其中:

    27.根据权利要求21所述的电路,其中:

    28.一种方法,其包括:

    29.根据权利要求28所述的方法,其中:

    30.根据权利要求28所述的方法,进一步包括:

    31.根据权利要求28所述的方法,其中:

    32.根据权利要求28所述的方法,其中:

    33.一种存储器系统,其包括:

    34.根据权利要求33所述的存储器系统,其中所述存储器加速器被配置为将所述输入特征映射的第三列贴块集从所述外部存储器传输到所述数据存储器,使得所述第三列贴块集覆写所述数据存储器中的所述第一列贴块集。

    35.根据权利要求33所述的存储器系统,其中所述存储器加速器被配置为在所述第一列贴块集的所述传输之前将填补贴块集插入所述数据存储器中,使得所述填补贴块集的每个贴块存储在所述数据存储器中,与所述填补贴块集的相邻贴块分隔所述预定数量的数据单元。

    36.根据权利要求33所述的存储器系统,进一步包括乘法器,其耦合到所述数据存储器并且被配置为将所述输入特征映射与滤波器系数乘数相乘以产生输出特征映射,其中所述存储器加速器被配置为在所述乘法器进行所述第一列贴块集的乘法期间将所述第二列贴块集传输到所述数据存储器。

    37.根据权利要求36所述的存储器系统,其中所述存储器加速器被配置为在所述乘法器进行所述第一列贴块集的前半部分的乘法期间将所述第二列贴块集传输到所述数据存储器。

    38.根据权利要求33所述的存储器系统,进一步包括乘法器,其耦合到所述数据存储器并且被配置为将所述输入特征映射与滤波器系数乘数相乘以产生输出特征映射,其中:

    39.根据权利要求33所述的存储器系统,进一步包括乘法器,其耦合到所述数据存储器并且被配置为将所述输入特征映射与滤波器系数乘数相乘以产生输出特征映射,其中:

    40.根据权利要求39所述的存储器系统,其中所述存储器加速器被配置为将所述输出特征映射的第二列贴块集存储在所述数据存储器中,使得所述输出特征映射的所述第二列贴块集与所述输出特征映射的所述第一列贴块集交错。


    技术总结
    本申请涉及矩阵传输加速器系统和方法。矩阵传输加速器(MTA)(0111)系统/方法使用矩阵贴块和/或分组来协调外部数据存储器(EDM)(0130)和本地数据存储器(LDM)(0114)之间的数据传输。该系统利用前台/后台缓冲,该前台/后台缓冲重叠计算和数据传输操作,并允许具有或没有零填补外围矩阵填充的数据传输。该系统可以包含零填充直接存储器访问(DMA)控制器(ZDC),其基于包括数据宽度寄存器(DWR)、传输计数寄存器(TCR)、填充计数寄存器(FCR)、EDM源地址寄存器(ESR)和LDM目标地址寄存器(LTR)的DMA控制器寄存器组将数据从EDM(0130)传输到LDM(0114)。ZDC将数据从EDM(0130)ESR传输到LDM(0114)LTR,使得EDM数据基于FCR值自动地被零填充在写入到LDM矩阵的矩阵的外围周围。

    技术研发人员:A·J·雷德芬,A·巴拉德瓦
    受保护的技术使用者:德克萨斯仪器股份有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-92634.html

    最新回复(0)