预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108304250A(43)申请公布日2018.07.20(21)申请号201810179213.3G06F9/50(2006.01)(22)申请日2018.03.05(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人曾丹张发恩郭江亮周恺王倩刘昆肖远昊徐东泽许天涵孙家元刘岚孙长辉尹世明唐进(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G06F9/455(2006.01)G06F9/48(2006.01)权利要求书3页说明书12页附图6页(54)发明名称用于确定运行机器学习任务的节点的方法和装置(57)摘要本申请实施例公开了一种用于确定运行机器学习任务的节点的方法和装置。方法包括:响应于接收用户提交的机器学习任务,获取服务器集群中所有节点的集合;从所有节点的集合中,确定符合机器学习任务的资源需求的候选节点的集合;从候选节点的集合中,以轮询方式为机器学习任务的工作负载单元的多个副本确定运行节点,其中,工作负载单元包括一个或多个容器。该方法能够尽可能地将机器学习任务的各个副本调度在不同的物理节点上,以降低物理节点故障对运行机器学习任务的影响。CN108304250ACN108304250A权利要求书1/3页1.一种用于确定运行机器学习任务的节点的方法,包括:响应于接收用户提交的机器学习任务,获取服务器集群中所有节点的集合;从所述所有节点的集合中,确定符合所述机器学习任务的资源需求的候选节点的集合;从所述候选节点的集合中,以轮询方式为所述机器学习任务的工作负载单元的多个副本确定运行节点,其中,所述工作负载单元包括一个或多个容器。2.根据权利要求1所述的方法,其中,所述方法还包括:响应于对各个工作负载单元的监控信息指示被监控的工作负载单元发生故障,从所述所有节点的集合中,过滤掉与发生故障的工作负载单元运行同一机器学习任务的工作负载单元副本所在的运行节点;从过滤后的节点的集合中,以轮询方式为所述发生故障的工作负载单元确定运行节点。3.根据权利要求1或2任意一项所述的方法,其中,所述方法还包括:间隔预定时间,遍历所述所有节点的集合,并在访问每一个节点时执行检测步骤;所述检测步骤包括:获取当前节点中所运行的所有工作负载单元的信息;从所述所有工作负载单元的信息中,确定不符合健康条件的待调度工作负载单元的信息;将所述待调度工作负载单元的信息按照资源占用率从大到小排序;根据排序后的待调度工作负载单元的排序顺序,依次将排序第一的待调度工作负载单元调度至除所述当前节点之外的其它节点上,直至调度后的所述当前节点的资源占用率恢复至预定资源占用率之下。4.根据权利要求3所述的方法,其中,所述从所述所有工作负载单元的信息中,确定不符合健康条件的待调度工作负载单元的信息包括:从所述所有工作负载单元的信息中,过滤符合保留条件的工作负载单元的信息;从过滤后的工作负载单元的信息中,确定不符合健康条件的待调度工作负载单元的信息。5.根据权利要求4所述的方法,其中,所述从所述所有工作负载单元的信息中,过滤符合保留条件的工作负载单元的信息包括:查询在除所述被检测的节点之外的其它节点上无副本的孤本工作负载单元的信息,过滤所述孤本工作负载单元;和/或过滤启动时间超过预定阈值的工作负载单元的信息,得到待调度工作负载单元的信息。6.根据权利要求3-5任意一项所述的方法,其中,所述将排序第一的待调度工作负载单元调度至除所述当前节点之外的其它节点上,直至调度后的所述当前节点的资源占用率恢复至预定资源占用率之下包括:根据资源占用率从小到大,排序除所述当前节点外的其它节点,得到排序后的接收节点,并将所述排序第一的待调度工作负载单元调度至排序第一的接收节点上,直至调度后所述当前节点的资源占用率恢复至预定资源占用率之下;或将所述待调度工作负载单元调度至除所述当前节点外的其它节点中资源占用率小于预设资源占用率的节点上,直至调度后所述当前节点的资源占用率恢复至预定资源占用率之下。2CN108304250A权利要求书2/3页7.一种用于确定运行机器学习任务的节点的装置,包括:所有节点获取单元,用于响应于接收用户提交的机器学习任务,获取服务器集群中所有节点的集合;候选节点确定单元,用于从所述所有节点的集合中,确定符合所述机器学习任务的资源需求的候选节点的集合;运行节点确定单元,用于从所述候选节点的集合中,以轮询方式为所述机器学习任务的工作负载单元的多个副本确定运行节点,其中,所述工作负载单元包括一个或多个容器。8.根据权利要求7所述的装置,其中,所述装置还包括:任务节点过滤单元,用于响应于对各个工作负载单元的监