预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111086268A(43)申请公布日2020.05.01(21)申请号201911088739.1(22)申请日2019.11.08(71)申请人新疆天业(集团)有限公司地址832000新疆维吾尔自治区乌鲁木齐市石河子开发区北三东路36号申请人浙江大学宁波理工学院(72)发明人宋晓铃马龙华文刚徐鸣姚佳清崔家林耿润华(74)专利代理机构杭州求是专利事务所有限公司33200代理人刘静(51)Int.Cl.B30B15/26(2006.01)B30B15/30(2006.01)G06N20/00(2019.01)权利要求书5页说明书12页附图3页(54)发明名称一种电石炉石灰粉料压球控制系统的积分强化学习控制方法(57)摘要本发明公开了一种电石炉石灰粉料压球控制系统的积分强化学习控制方法,该方法提出了积分强化学习自适应控制器,包括两个神经网络(NeuralNetwork,NN):一个估计非二次策略效用函数(StrategyUtilityFunction,SUF)的评论器NN;另一个生成优化控制输入并使SUF最小化的执行器NN。由于控制以非仿射形式出现,应用隐函数定理得到最优控制律。首次引入离散Nussbaum增益来克服控制方向未知的困难,并采用非二次SUF来处理基于RL控制中的控制约束。采用本发明的电石炉石灰粉料压球控制系统具有调整时间短,超调小的优点,并且鲁棒性更强。CN111086268ACN111086268A权利要求书1/5页1.一种电石炉石灰粉料压球控制系统的积分强化学习控制方法,其特征在于,该方法包括以下步骤:S1:首先采集电石炉石灰粉料压球机进料铰刀电机的转速来获得电机的电流作为输出信号,利用电机的输入电压对电机电流进行控制;并定义非二次策略效用函数,使得输出信号跟踪给定的电流期望轨迹,并且使所用的输入电压信号波动最小。具体如下:定义非二次策略效用函数SUF;式中,k为采样步数,为正常数,u(k)为电机的控制输入电压信号,y(k)为电机电流的输出信号,r>0,v为控制输入的饱和界限,为有界的一对一函数,满足而且为单调递增奇函数;的梯度是有界的;q(y(k))=(y2(k)-yr(k)),其中,yr(k)为电石炉石灰粉料压球机给定的电流期望轨迹,是紧子集R上的一个已知的光滑有界函数,由于是单调奇函数,W(u(·))是正定的;根据Bellman最优化原理,得到最优的SUF值J*(·),满足以下HJB方程:q(k)为q(y(k))的简写。S2:在每一个采样周期内,根据隐函数定理,由最优的SUF值J*(·),得到一个最优控制律u*(k),作为电机的输入电压,可以使电石炉石灰粉料压球机电机电流跟踪给定的电流期望轨迹,最优控制律如下:式中,τ为系统时延。*S3:利用评论器NN神经网络近似最优SUF值J(·);评论器NN神经网络的预测误差ec(k)为:式中表示评论器NN神经网络的输出,0<rc<1;为回归向量,由输入和输出测量值的回归值组成,z(k)为由输入信号和输出信号的反馈值组成的向量,作为评论器NN神经网络的输入;,a(k)是开关信号;评论2CN111086268A权利要求书2/5页器NN神经网络具有双层结构,和分别表示其输出的实际权向量和隐藏层的权矩阵;nc项表示隐藏层神经元的数量,nz=m+n+1,m和n分别为输入和输出信号的阶次;隐藏层的激活函数向量简写为φc(k);评论器NN神经网络近似最优SUF值J*(·)的公式如下:式中,T为转置符号,Wc为最优SUF的期望权矩阵,为公式中需要更新的参数,为J*(k)的有界的最优逼近误差,根据需求精度进行选择。评论器NN网络的权值估计误差为:近似权值估计误差ζc(k)表示为:因此,预测误差为:其中,G(k)=1+|N(x(k))|其中,e(k)为时刻的跟踪误差,N(x(k))为Nussbaum增益,λ为一个阈值,λ>0。将预测误差的二次函数Ec(k)定义为评论器NN神经网络的最小化对象,进而确定预测误差中的ζc(k);评论器NN神经网络的权值更新规则是一个基于梯度的自适应算法:3CN111086268A权利要求书3/5页式中,αc∈R是可调节的自适应增益;然后根据以下引理,得到权重更新律。引理:考虑到矩阵A∈Rm×m,X∈Rn×m和向量b∈Rn,q∈Rm,下面的二次项关于矩阵X的导数为:式中,矩阵A,向量b和q与矩阵X无关;可得评论器NN的权值更新规律为根据得到的权值更新规律和确定的近似权值估计误差,得到需要更新的最优SUF的期望权矩阵,进而得到最优SUF值。S4:利用执行器NN生成电石炉石灰粉料压球机输入电压信号来近似最优控制律u*(k),具体如下:利用执行器NN近似电石炉石灰粉料压球机输入电压的控制