预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113254192A(43)申请公布日2021.08.13(21)申请号202010088853.0(22)申请日2020.02.12(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室(72)发明人毕钰包勇军崔永雄张泽华熊浪涛(74)专利代理机构北京律智知识产权代理有限公司11438代理人王辉阚梓瑄(51)Int.Cl.G06F9/50(2006.01)权利要求书2页说明书14页附图6页(54)发明名称资源分配方法、资源分配装置、电子设备及存储介质(57)摘要本公开提供了一种资源分配方法、资源分配装置、电子设备及计算机可读存储介质,属于人工智能技术领域。该方法包括:确定多个任务队列的初始资源配额,使每个所述任务队列采用对应的初始资源配额运行任务;当满足第一预设条件时,获取至少一个所述任务队列的资源使用状态数据;利用最新的强化学习模型对所述资源使用状态数据进行处理,得到资源分配动作数据,并采用所述资源分配动作数据调节所述多个任务队列的资源配额;当满足第二预设条件时,获取至少一个所述任务队列的任务运行状态数据;根据所述任务运行状态数据确定奖励值,并通过所述奖励值更新所述强化学习模型。本公开可以为任务队列进行高效、合理的资源分配。CN113254192ACN113254192A权利要求书1/2页1.一种资源分配方法,其特征在于,包括:确定多个任务队列的初始资源配额,使每个所述任务队列采用对应的初始资源配额运行任务;当满足第一预设条件时,获取至少一个所述任务队列的资源使用状态数据;利用最新的强化学习模型对所述资源使用状态数据进行处理,得到资源分配动作数据,并采用所述资源分配动作数据调节所述多个任务队列的资源配额;当满足第二预设条件时,获取至少一个所述任务队列的任务运行状态数据;根据所述任务运行状态数据确定奖励值,并通过所述奖励值更新所述强化学习模型。2.根据权利要求1所述的方法,其特征在于,所述确定多个任务队列的初始资源配额,包括:根据每个所述任务队列的重要级确定每个所述任务队列的初始资源配额。3.根据权利要求1所述的方法,其特征在于,所述根据所述任务运行状态数据确定奖励值,包括:当根据所述任务运行状态数据确定存在提前完成的任务或运行失败的任务时,基于该任务所属任务队列的重要级计算所述奖励值。4.根据权利要求1所述的方法,其特征在于,所述第一预设条件包括以下任意一种或多种:到达第一预定周期时间;任意所述任务队列的资源使用率超过第一预设阈值;任意所述任务队列中增加新的任务。5.根据权利要求1所述的方法,其特征在于,所述获取至少一个所述任务队列的资源使用状态数据,包括:获取每个所述任务队列的资源使用状态数据;所述利用最新的强化学习模型对所述资源使用状态数据进行处理,得到资源分配动作数据,包括:以每个所述任务队列的资源使用状态数据为一行,将所述多个任务队列的资源使用状态数据转换为资源使用状态矩阵;将所述资源使用状态矩阵输入最新的强化学习模型,输出对应的资源分配动作数据。6.根据权利要求1所述的方法,其特征在于,所述第二预设条件包括以下任意一种或多种:到达第二预定周期时间;进行m次调节资源配额,m为第一预设次数;任意所述任务队列的资源使用率在连续n次调节资源配额中均超过第二预设阈值,n为第二预设次数。7.根据权利要求1所述的方法,其特征在于,所述通过所述奖励值更新强化学习模型,包括:基于所述奖励值、当前的所述资源使用状态数据、上一次调节资源配额时的资源使用状态数据以及上一次调节资源配额的资源分配动作数据,采用贝尔曼方程更新所述强化学习模型的价值函数。2CN113254192A权利要求书2/2页8.根据权利要求7所述的方法,其特征在于,所述价值函数包括神经网络,当更新所述强化学习模型的价值函数时,更新所述神经网络的参数。9.根据权利要求1至8任一项所述的方法,其特征在于,所述资源分配动作数据包括:为一个所述任务队列增加预设资源配额,为另一个所述任务队列减少预设资源配额;或者保持各所述任务队列当前的资源配额。10.一种资源分配装置,其特征在于,包括:资源确定模块,用于确定多个任务队列的初始资源配额,使每个所述任务队列采用对应的初始资源配额运行任务;第一数据获取模块,用于当满足第一预设条件时,获取至少一个所述任务队列的资源使用状态数据;资源调节模块,用于利用最新的强化学习模型对所述资源使用状态数据进行处理,得到资源分配动作数据,并采用所述资源分配动作数据调节所述多个任务队列的资源配额;第二数据获取模块,用于当满足第二预设条件时,获取至少一个所述任务队列的任务运行状态数据;模型更新模块,用于根据所述