预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114912826A(43)申请公布日2022.08.16(21)申请号202210603831.2(22)申请日2022.05.30(71)申请人华中农业大学地址430070湖北省武汉市洪山区狮子山街1号(72)发明人李小霞曾正祺(74)专利代理机构湖北武汉永嘉专利代理有限公司42102专利代理师刘琰(51)Int.Cl.G06Q10/06(2012.01)G06Q50/04(2012.01)G06N3/08(2006.01)权利要求书4页说明书8页附图2页(54)发明名称一种基于多层深度强化学习的柔性作业车间调度方法(57)摘要本发明公开了一种基于多层深度强化学习的柔性作业车间调度方法,包括:P1深度强化学习模型部分:深度学习采用图神经网络,析取图作为其输入并得到其特征,实现有效地得到问题的特征表示。强化学习基于马尔可夫决策模型,柔性车间调度问题经过模型的反复决策过程得到其决策方案,通过最大化奖励值的方式让其目标最优。P2训练算法部分:采用actor_critic算法来进行模型的训练,将样本收集的任务分配给多个子线程进行,每个子线程独立的进行决策和生成样本,并且每个子线程同时决策多个问题生成多条决策轨迹,实现快速的生成无关联的高质量样本优化模型并快速地得到最终模型,本发明训练后的模型支持柔性车间调度问题的快速求解以及在不同规模问题上的泛化。CN114912826ACN114912826A权利要求书1/4页1.一种基于多层深度强化学习的柔性作业车间调度方法,其特征在于,对于柔性车间调度问题,建立深度强化学习模型,对其进行训练,并通过训练后的深度强化学习模型对柔性车间调度问题进行求解,输出最优调度方案;该方法包括以下两个部分:P1深度强化学习模型部分:深度强化学习模型用于决策柔性车间调度问题,将柔性车间调度问题表示为析取图,求解过程为析取弧的定向过程;深度学习采用图神经网络,析取图作为其输入并得到其特征,实现有效地得到问题的特征表示;强化学习基于马尔可夫决策模型,设计与问题对应的状态、动作和奖励,分层的决策模型根据状态特征做出相应的动作;柔性车间调度问题经过模型的反复决策过程得到其决策方案,通过最大化奖励值的方式让其目标最优;P2训练算法部分:采用多线程、多轨迹的异步优势actor_critic算法训练深度强化学习模型,将样本收集的任务分配给多个子线程进行,每个子线程独立的进行决策和生成样本,并且每个子线程同时决策多个问题生成多条决策轨迹,实现快速的生成无关联的高质量样本优化模型并快速地得到最终模型,训练后的模型支持柔性车间调度问题的快速求解以及在不同规模问题上的泛化;并通过训练后的深度强化学习模型输出柔性车间的最优调度方案,将最优调度方案交由柔性车间执行。2.根据权利要求1所述的基于多层深度强化学习的柔性作业车间调度方法,其特征在于,所述P1深度强化学习模型部分中得到析取图特征的具体方法为:步骤1.1、根据柔性车间调度问题,得到其析取图表示Graph;步骤1.2、根据析取图中的析取弧确定节点信息;步骤1.3、将析取图作为图神经网络的输入得到其特征Feature。3.根据权利要求2所述的基于多层深度强化学习的柔性作业车间调度方法,其特征在于,所述步骤1.1中析取图定义如下:柔性车间调度问题的析取图描述为:给定图G={O,C,D},其中O为所有加工工序节点o和两个虚拟工序节点S和E的集合,两个虚拟工序节点分别表示调度的开始和结束;C为连接弧集合,C={<v,w>|v,w∈V},v和w表示的两个工序属于同一个工件;对于属于C的<v,w>表示节点v到节点w有一条连接弧,为单向弧,为保证同一工件上的各工序加工顺序的先后约束,有stv<stw,stv为节点v所表示工序的开始加工时间;D为析取弧集合,D={<v,w>|v,w∈V},每一条为双向弧的析取弧表示连接的节点v和节点w的工序可以在同一台机器上加工;最终目标为确定所有析取弧的方向,同时让最大完工时间最短;柔性车间调度问题的每个工件的工序数目可能不同,在转换析取图时,若工件的工序数目少于最大工序数,则在工件末尾添加“0”工序节点确保图结构的统一性,“0”工序运行时间不计,可以在所有机器上加工。4.根据权利要求2所述的基于多层深度强化学习的柔性作业车间调度方法,其特征在于,所述步骤1.2中节点信息的计算方法具体为:步骤1.2.1、对每个工序,随机选择其在一台可执行机器上的执行时间作为其预估执行时间;步骤1.2.2、不考虑未定向的析取弧约束,每个工序按照其连接弧约束关系和已定向的析取弧关系依次加工,计算每个工序的完工时间作为其节点信息。5.根据权利要求2所述的基于多层深度强化学习的柔性作业车间调度方法,其特征在2CN1149