预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107992939A(43)申请公布日2018.05.04(21)申请号201711275524.1B23F5/12(2006.01)(22)申请日2017.12.06(71)申请人湖北工业大学地址430068湖北省武汉市洪山区南李路28号(72)发明人柯丰恺周唯倜赵大兴朱海峰丁国龙孙国栋许万吴震宇赵迪(74)专利代理机构武汉开元知识产权代理有限公司42104代理人王和平张继巍(51)Int.Cl.G06N3/04(2006.01)G06N3/08(2006.01)G06F17/50(2006.01)权利要求书3页说明书6页附图1页(54)发明名称基于深度增强学习的等切削力齿轮加工方法(57)摘要本发明涉及一种基于深度增强学习的等切削力齿轮加工方法,包括构建深度增强学习模型、构造输出干扰、构建仿真环境、建立奖励rt计算模型、积累经验池、训练深度增强学习神经网络及利用训练好的深度强化学习模型控制插齿机等切削力的切削齿轮。本发明基于深度增强学习的等切削力齿轮加工方法,通过加入深度增强学习网络,解决插齿机等切削力的自动插齿问题,充分利用了插齿机的功率,大大加快了插齿机的切削效率并同时保证了工件的加工质量与加工过程的平稳性。CN107992939ACN107992939A权利要求书1/3页1.一种基于深度增强学习的等切削力齿轮加工方法,其特征在于:包括如下步骤:步骤1)构建深度增强学习模型1.1)神经网络初始化:神经网络分为Actor网络和Critic网络两个部分,Actor网络为行为网络、Critic网络为评价网络,每个部分又分别构建两个结构完全相同而参数不同的evalnet和targetnet,evalnet为估计网络、targetnet为目标网络,从而形成μ(s|θμ)网络、μ(s|θμ′)网络、Q(s,a|θQ)网络及Q(s,a|θQ′)网络共四个网络,即μ(s|θμ)网络为行为估计网络、μ(s|θμ′)网络为行为目标网络、Q(s,a|θQ)网络为评价估计网络、Q(s,a|θQ′)网络为评价目标网络;随机初始化μ(s|θμ)网络的参数θμ和随机初始化Q(s,a|θQ)网络的参数θQ,然后将μ(s|θμ)网络的参数θμ值赋予行为目标网络,即θμ′←θμ,将Q(s,a|θQ)网络的参数θQ值赋予评价目标网络,即θQ′←θQ;1.2)经验池初始化:设定经验池为m行、n列的二维矩阵,二维矩阵中每个元素的值初始化为0,其中,m为样本容量大小、n为每个样本储存的信息数量,n=2×state_dim+action_dim+1,state_dim为状态的维度、action_dim为动作的维度;同时,在经验池中预留出用于存储奖励信息的空间,n=2×state_dim+action_dim+1这个公式中的1即为存储奖励信息的预留空间;步骤2)构造输出干扰根据当前输入状态st,通过网络得到动作at′,再设定一个均值为at′、方差为2var的随机正态分布从随机正态分布中随机得到一个实际输出动作at,随机正态分布对动作at′施加了干扰,用于探索环境,其中,代表t时刻评价估计网络的参数,t为当前输入状态的时刻;步骤3)构建仿真环境步骤4)建立奖励rt计算模型步骤5)积累经验池5.1)根据当前输入状态st,通过网络得到动作at′,再根据步骤2)建立的输出干扰得到实际输出动作at,并从环境中得到奖励rt和后续输入状态st+1,将当前输入状态st,实际输出动作at,奖励rt和后续输入状态st+1存储在经验池中,并将当前输入状态st、实际输出动作at、奖励rt、后续输入状态st+1统称为状态转移信息transition;5.2)将后续输入状态st+1当做现在的当前输入状态st,重复步骤5.1),将计算得到的状态转移信息transition存储在经验池中;5.3)重复步骤5.2)直至经验池的空间被存储满,经验池的空间被存储满后每执行一次步骤5.2)便跳转执行一次步骤6);步骤6)训练深度增强学习神经网络6.1)取样从经验池中取出batch组样本供神经网络学习,batch代表自然数;6.2)对评价网络参数进行更新6.3)对行为估计网络参数进行更新6.4)对目标网络参数进行更新2CN107992939A权利要求书2/3页步骤7)利用步骤6)训练好的深度强化学习模型控制插齿机等切削力的切削齿轮通过力学传感器得到当前输入状态st,深度增强学习网络根据当前输入状态st控制插齿机切削齿轮,并从环境中得到后续输入状态st+1。将后续输入状态st+1当做当前输入状态st,如此循环,直至深度增强学习模型控制插齿机将齿轮切削完成。2.根据权利要求1所述基于深度增强学习的等切削力齿轮加工方法,其特征在于:所述