预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114168344A(43)申请公布日2022.03.11(21)申请号202111538135.X(22)申请日2021.12.15(71)申请人中山大学地址510275广东省广州市新港西路135号(72)发明人陈鹏飞谢文欣郑子彬(74)专利代理机构北京集佳知识产权代理有限公司11227代理人李增苗(51)Int.Cl.G06F9/50(2006.01)权利要求书2页说明书10页附图3页(54)发明名称一种GPU资源分配方法、装置、设备和可读存储介质(57)摘要本申请公开了一种GPU资源分配方法、装置、设备和可读存储介质,方法包括:确定目标程序当前执行的指令是否为挂载CUDA指令,所述挂载CUDA指令为挂载有eBPF标签的资源分配CUDA指令;若是,通过与所述挂载CUDA指令挂载的eBPF标签触发eBPF进程进行对GPU资源量的执行审计;获取eBPF进程返回的执行审计结果,所述执行审计结果基于所述当前执行的指令对应的额定GPU资源量和当前GPU实时占用的资源量确定;若所述执行审计结果为审计通过,则允许通过调用所述当前执行的指令进行GPU资源分配;若所述执行审计结果为审计不通过,则按照预设隔离模式限制GPU资源分配。本申请可以同时适配各CUDA版本,避免出现性能开销高、开发周期长、维护成本高,给上层应用造成影响的情况。CN114168344ACN114168344A权利要求书1/2页1.一种GPU资源分配方法,其特征在于,包括:确定目标程序当前执行的指令是否为挂载CUDA指令,所述挂载CUDA指令为挂载有eBPF标签的资源分配CUDA指令;若是,通过与所述挂载CUDA指令挂载的eBPF标签触发eBPF进程进行对GPU资源量的执行审计;获取eBPF进程返回的执行审计结果,所述执行审计结果基于所述当前执行的指令对应的额定GPU资源量和当前GPU实时占用的资源量确定;若所述执行审计结果为审计通过,则允许通过调用所述当前执行的指令进行GPU资源分配;若所述执行审计结果为审计不通过,则按照预设隔离模式限制GPU资源分配。2.根据权利要求1所述的方法,其特征在于,将所述eBPF标签挂载到资源分配CUDA指令的过程,包括:获取当前CUDA版本;从存储的配置文件中读取所述当前CUDA版本对应的所述资源分配CUDA指令的逻辑地址;将eBPF标签挂载到所述资源分配CUDA指令的逻辑地址。3.根据权利要求1所述的方法,其特征在于,所述eBPF进程确定所述返回的执行审计结果的过程,包括:eBPF进程根据当前GPU实时占用的资源量和预设的允许使用GPU资源上限确定当前GPU空闲资源量;eBPF进程确定所述当前执行的指令对应的额定GPU资源量是否超过所述当前GPU空闲资源量;若是,则eBPF进程返回的所述执行审计结果为审计不通过,否则为审计通过。4.根据权利要求1所述的方法,其特征在于,所述按照预设隔离模式限制分配,包括:按照GPU硬隔离限制GPU资源分配;或,按照GPU软隔离限制GPU资源分配。5.根据权利要求4所述的方法,其特征在于,所述按照GPU硬隔离限制GPU资源分配,包括:暂缓执行本次GPU资源分配并提示资源分配不足。6.根据权利要求4所述的方法,其特征在于,所述按照GPU软隔离限制GPU资源分配,包括:确定当前GPU空闲资源量是否为空;若是,则暂缓执行本次GPU资源分配;若否,则允许通过调用所述当前执行的指令进行GPU资源分配。7.根据权利要求1所述的方法,其特征在于,所述资源分配CUDA指令包括显存分配CUDA指令、算力分配CUDA指令、设备信息CUDA指令。8.一种GPU资源分配装置,其特征在于,包括:指令确定单元,用于确定目标程序当前执行的指令是否为挂载CUDA指令,所述挂载2CN114168344A权利要求书2/2页CUDA指令为挂载有eBPF标签的资源分配CUDA指令;执行审计单元,用于目标程序当前执行的指令为挂载CUDA指令时,通过与所述挂载CUDA指令挂载的eBPF标签触发eBPF进程进行对GPU资源量的执行审计;结果获取单元,用于获取eBPF进程返回的执行审计结果,所述执行审计结果基于所述当前执行的指令对应的额定GPU资源量和当前GPU实时占用的资源量确定;资源分配单元,用于在所述执行审计结果为审计通过的情况下,允许通过调用所述当前执行的指令进行GPU资源分配;资源限制单元,用于在所述执行审计结果为审计不通过的情况下,按照预设隔离模式限制GPU资源分配。9.一种GPU资源分配设备,其特征在于,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1‑7中任一项所述的GPU资源分配方法的各个步骤。10.一种可读存储介