预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115981827A(43)申请公布日2023.04.18(21)申请号202310101833.6(22)申请日2023.01.19(71)申请人长鑫存储技术有限公司地址230601安徽省合肥市经济技术开发区空港工业园兴业大道388号(72)发明人孙留英(74)专利代理机构北京知联天下知识产权代理事务所(普通合伙)11594专利代理师韩艺珠(51)Int.Cl.G06F9/48(2006.01)权利要求书3页说明书13页附图2页(54)发明名称一种多任务调度方法及装置(57)摘要本发明涉及计算机多任务架构技术领域,特别涉及一种多任务调度方法及装置。本发明采用多队列缓存调度机制和多维度资源筛选策略,分别从解决任务调度拥塞、提升资源调度效率方面来解决当前AI模型训练多任务场景下的任务调度不及时、资源利用不高的问题;多线程结合任务队列的方式实现了资源的有序调度,以时间换空间,避免了多任务间的资源无序竞争造成的死等,解决了多任务同步执行时资源筛选不准导致的调度失败的几率增大;新增资源的预选策略,缩小了有效节点的范围,帮助K8s等任务容器scheduler调度器能够更快更准的筛选出符合预期的模型训练所需的节点。CN115981827ACN115981827A权利要求书1/3页1.一种多任务调度方法,其特征在于,所述方法包括:新建任务时,将每个任务打分及设置优先级,并将任务推送到主任务队列Q;执行任务时,依据主任务队列中任务的优先级从任务队列Q中取出任务T,并在集群中筛选可连通节点,得到可连通节点集合M;依据可连通节点集合M中节点数量判断是否启动多协程并发筛选;在可连通节点集合M的基础上,筛选符合任务GPU需求的GPU匹配节点集合P;在GPU匹配节点集合P的基础上,根据K8S调度规则对节点进行筛选得到最优节点N,将任务T绑定到计算节点N上并开始执行任务T。2.根据权利要求1所述的一种多任务调度方法,其特征在于,所述依据主任务队列中任务的优先级,具体包括:每隔一定时间t1轮询一次主任务队列里面的任务,将队列里面的任务根据优先级从高到低对任务进行排序;然后依据优先级顺序执行任务。3.根据权利要求1所述的一种多任务调度方法,其特征在于,所述将任务T绑定到计算节点N上并开始执行任务T,之后还包括:调度失败的任务记录失败次数,失败次数小于等于次数阈值时,推送到失败任务队列,否则放弃调度失败的任务;每隔一定时间t2轮询一次失败队列,将队列里面的任务优先级降级后推送到主任务队列,以进行二次调用。4.根据权利要求3所述的一种多任务调度方法,其特征在于,所述每个任务打分,具体包括:给每个任务指定任务属性参数,根据CPU、GPU、内存mem和任务时间duration的属性值来给任务打分。5.根据权利要求4所述的一种多任务调度方法,其特征在于,所述根据CPU、GPU、内存mem和任务时间duration的属性值来给任务打分,具体包括:CPU:一核计5分,双核计4分,四核计3分,八核计2分,以及十六核计1分;GPU:500MiB计5分,1DiB计4分,2DiB计3分,4DiB计2分,以及8DiB计1分;内存mem:1DiB计5分,2DiB计4分,4DiB计3分,8DiB计2分,以及16DiB计1分;任务时间duration:(0,1]小时计5分,(1,6]小时计4分,(6,12]小时计3分,(12,24]小时计2分,以及大于24小时计1分;以CPU、GPU、内存mem和任务时间duration的打分总和为该任务的打分分值,任务依赖的资源越高分值会越低。6.根据权利要求5所述的一种多任务调度方法,其特征在于,所述设置优先级,具体包括:任务的打分分值与4相除取商,所述商即为任务优先级,任务优先级数值越低代表任务优先级越高,计算公式为:Pt=St/4,即任务优先级Pt=任务分值St与4的商。7.根据权利要求3所述的一种多任务调度方法,其特征在于,所述调度失败的任务记录失败次数,具体包括:每个任务有任务状态status,对应3个值,0表示任务执行成功,1表示任务执行失败,22CN115981827A权利要求书2/3页表示任务未执行;任务初始状态staus默认为2,同时任务属性fail_cnt记录任务执行失败次数。8.根据权利要求6所述的一种多任务调度方法,其特征在于,所述任务优先级降级,具体包括:任务优先级数值越低代表任务优先级越高,任务优先级降级即为任务优先级数值加一操作,其计算公式为:Pt++,即新Pt=旧Pt+1。9.根据权利要求1所述的一种多任务调度方法,其特征在于,所述在集群中筛选可连通节点,得到可连通节点集合M,具体包括:引入探测节点网络状态的守护进程ProbeConnectDaemon,守护