预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115880132A(43)申请公布日2023.03.31(21)申请号202310064272.7(22)申请日2023.02.06(71)申请人南京砺算科技有限公司地址210031江苏省南京市中国(江苏)自由贸易试验区南京片区团结路99号孵鹰大厦2794室申请人砺算科技(上海)有限公司(72)发明人阙恒周义满朱康挺商秋(74)专利代理机构北京品源专利代理有限公司11332专利代理师孔凡红(51)Int.Cl.G06T1/20(2006.01)G06F17/16(2006.01)权利要求书2页说明书10页附图4页(54)发明名称图形处理器、矩阵乘法任务处理方法、装置及存储介质(57)摘要本发明公开了一种图形处理器、矩阵乘法任务处理方法、装置及存储介质,涉及图像处理技术领域;该图形处理器包括:数据管理模块,用于将矩阵乘法任务中第一特征矩阵的行元素,依次存储进第一寄存器组的各个寄存器中,以及第二特征矩阵的列元素,依次存储进第二寄存器组的各个通道中;指令调度器,用于根据元素存储结果构建点积累加压缩指令;指令执行器,用于根据构建完成的点积累加压缩指令,执行矩阵乘法任务。本发明实施例的技术方案,减少了矩阵乘法元素对寄存器资源的占用,降低了从寄存器中获取数据时的搬运开销,同时,GPU基于每条点积累加压缩指令可执行较多次数的乘法及加法运算,极大地提高了GPU的计算能力。CN115880132ACN115880132A权利要求书1/2页1.一种图形处理器,其特征在于,包括:数据管理模块、指令调度器和指令执行器;所述数据管理模块,用于将矩阵乘法任务中第一特征矩阵的行元素,依次存储进第一寄存器组的各个寄存器中,以及将所述矩阵乘法任务中第二特征矩阵的列元素,依次存储进第二寄存器组的各个通道中;所述指令调度器,用于根据行元素存储结果构建点积累加压缩指令的第一操作数,以及根据列元素存储结果构建所述点积累加压缩指令的第二操作数;所述指令执行器,用于根据构建完成的所述点积累加压缩指令,执行所述矩阵乘法任务。2.根据权利要求1所述的图形处理器,其特征在于,所述指令调度器,还用于根据所述点积累加压缩指令中的重复发出次数,重复发出所述点积累加压缩指令;其中,所述点积累加压缩指令在每次发出时,所述第一操作数和所述第二操作数均依次递增;所述指令执行器,还用于根据所述点积累加压缩指令和所述重复发出次数,执行所述矩阵乘法任务。3.根据权利要求2所述的图形处理器,其特征在于,所述指令调度器,具体还用于根据所述点积累加压缩指令中的重复发出次数,基于连续发射机制,重复发出所述点积累加压缩指令。4.根据权利要求1所述的图形处理器,其特征在于,所述数据管理模块,具体用于将所述第一寄存器组的单通道容量和所述第二寄存器组的单通道容量中,数值较小的一个作为目标单通道容量,并根据所述目标单通道容量,将矩阵乘法任务中第一特征矩阵的行元素,依次存储进第一寄存器组的各个寄存器中,以及将所述矩阵乘法任务中第二特征矩阵的列元素,依次存储进第二寄存器组的各个通道中。5.根据权利要求1所述的图形处理器,其特征在于,所述数据管理模块,具体还用于若所述第一寄存器组的部分通道被占用,则在未被占用的通道中选择指定数量的目标通道,并将所述第一特征矩阵的行元素,依次存储进第一寄存器组的各个寄存器的目标通道中。6.根据权利要求1所述的图形处理器,其特征在于,所述数据管理模块,具体用于将矩阵乘法任务中第一特征矩阵的四个连续行元素,依次存储进第一寄存器组的各个寄存器中,以及将所述矩阵乘法任务中第二特征矩阵的四个连续列元素,依次存储进第二寄存器组的各个通道中;所述指令调度器,用于根据行元素存储结果构建四元素点积指令的第一操作数,以及根据列元素存储结果构建所述四元素点积指令的第二操作数。7.根据权利要求1所述的图形处理器,其特征在于,所述指令执行器具体还用于根据当前四元素点积指令执行点积运算,以将点积运算结果存放于内部的累加缓存器,并在当前四元素点积指令的点积运算次数达到指定次数时,将点积运算结果存入指定寄存器中。8.一种矩阵乘法任务处理方法,应用于如权利要求1‑7任一所述的图形处理器中,包括:数据管理模块将矩阵乘法任务中第一特征矩阵的行元素,依次存储进第一寄存器组的各个寄存器中,以及将所述矩阵乘法任务中第二特征矩阵的列元素,依次存储进第二寄存器组的各个通道中;指令调度器根据行元素存储结果构建点积累加压缩指令的第一操作数,以及根据列元2CN115880132A权利要求书2/2页素存储结果构建所述点积累加压缩指令的第二操作数;指令执行器根据构建完成的所述点积累加压缩指令,执行所述矩阵乘法任务。9.一种矩阵乘法任务处理装置,应用于如权利要求1‑7任一所述的图形处