预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113885549A(43)申请公布日2022.01.04(21)申请号202111395210.1(22)申请日2021.11.23(71)申请人江苏科技大学地址212100江苏省镇江市丹徒区长晖路666号(72)发明人薛文涛吴行行吴帅叶辉杨晓飞(74)专利代理机构南京经纬专利商标代理有限公司32200代理人徐澍(51)Int.Cl.G05D1/08(2006.01)权利要求书3页说明书10页附图7页(54)发明名称基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法(57)摘要本发明公开一种基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法。步骤是:1)构建四旋翼动力学模型,结合起飞悬停的任务要求搭建环境;2)完善任务环境,加入两种类型的风场模型;3)设置动作空间和状态空间,制定环境规则和状态边界值;4)优化PPO算法;基于维度裁剪修改目标函数、提出额外损失来解决零梯度问题;5)探索分布式奖励值信号;对分层的奖惩函数给予相应的权值;6)设计神经网络更新控制策略;使用MLP结构,包含价值神经网络和策略神经网络;7)使用基于维度裁剪的PPO算法训练无人机控制策略。本发明优化了强化学习PPO算法,用于训练在风场环境下四旋翼无人机的控制策略,以达到起飞悬停的姿态轨迹控制要求。CN113885549ACN113885549A权利要求书1/3页1.一种基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,包括以下步骤:1)搭建四旋翼任务环境;根据无人机旋转特性和平移特性建立四旋翼模型,设计任务要求为无人机从起始点起飞,悬停至目标点;根据任务要求和四旋翼模型搭建任务环境;2)对四旋翼无人机任务环境进行完善,加入风切变和离散突风两种类型的风场模型;3)根据任务环境中不同的姿态、轨迹控制要求来设置相应的动作空间和状态空间,制定环境规则和状态边界值;4)得到训练任务环境的控制策略,需要依据维度裁剪机制来优化PPO算法;更改算法中的目标函数并提出额外损失;5)在优化后的PPO算法中引入分布式奖励值信号;根据状态边界值设定惩罚项,通过对分层的奖惩函数给予相应的权值;6)设计深度神经网络架构,强化学习算法的策略更新将作为神经网络的输入端;使用多层感知器(MLP)结构;7)使用基于维度裁剪的PPO算法在风场环境下训练策略,通过神经网络输出四旋翼的控制策略;训练完毕后观察无人机的控制效果,验证强化学习算法训练的控制策略的抗干扰能力。2.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤1)中,构建的四旋翼学模型为设定任务要求为控制四旋翼从[0,0,0]的起始点起飞至[5,5,5]的目标点并稳定的悬停在目标点。3.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤2),在四旋翼任务环境中加入风切变和离散突风两种风场模型,其中风切变的模型为Vpw为产生的风切变风速值,Vw0为摩擦速度,由空气密度ρ和地面剪应力τ0决定,表达式为:k为Karman常数,H为四旋翼的飞行高度,一般取0.4,H0为粗糙度高度,一般取为0.05;离散突风的模型为其中Vwm为突风的峰值,dm为突风尺度范围,x为离突风中心的距离。4.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤3)中,偏航角不作限制,根据任务环境设置一个三维的动作空间和八维的状态空2CN113885549A权利要求书2/3页间;动作输入为四旋翼转子的转速,设置动作空间的大小为[0,500],位置的状态空间大小为[‑10,10],姿态角速度的状态空间大小设置为[‑4.5,4.5],滚转、俯仰角的状态空间大小设置为[‑45°,45°]。5.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤4)中,将现有PPO算法中各个维度的重要性维度权重分别裁剪,更改为一个新的目标函数:2其中πθ(·|st)=N(μ,σI)为目标策略,μ=(μ0,μ1,…,μD‑1)是均值向量,D是动作维度,σ2是方差,I是单位矩阵;当策略πθ被分解为策略维度时,πθ,d(·|st)~N(μd,σ),设at,d是at的第d个元素,则6.根据权利要求5所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,加入一个额外的损失最后的策略函数如下:其中αIS是权重因子,它通过自适应方式改变其价值:7.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤5)中,设置了一个结合多种奖励策略的奖励函数来替代单一简单的奖励函数,奖励函数通过如下形式获得:222r2=‑γ*arctan(s)*(x+