预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115033000A(43)申请公布日2022.09.09(21)申请号202210799352.2(22)申请日2022.07.06(71)申请人重庆大学地址400044重庆市沙坪坝区沙正街174号(72)发明人陈超徐靖涵李路嘉李明妍李瑞远古富强郭松涛谢志江蒲华燕罗均(74)专利代理机构重庆博凯知识产权代理有限公司50212专利代理师黄河(51)Int.Cl.G05D1/02(2020.01)权利要求书2页说明书13页附图3页(54)发明名称基于深度强化学习的双目标路径规划方法(57)摘要本发明涉及路径规划技术领域,具体涉及基于深度强化学习的双目标路径规划方法,包括以下步骤:S1、对道路网络进行状态表示,并构建奖励函数r,得到待训练的双目标深度强化学习路径规划模型;所述状态包括坐标状态、距离状态和cu状态;S2、对待训练的双目标路径规划模型进行训练,使其学习到能够获得最大累积奖励的最优策略π*,得到训练后的双目标路径规划模型;所述累积奖励为奖励函数给出的即时奖励与神经网络估计的附加未来奖励之和;S3、使用训练后的双目标路径规划模型,进行双目标路径规划。本发明在具备最小化路径距离能力的同时,还具备优化不同场景下的损失和效用的通用性。CN115033000ACN115033000A权利要求书1/2页1.基于深度强化学习的双目标路径规划方法,其特征在于,包括以下步骤:S1、对道路网络进行状态表示,并构建奖励函数r,得到待训练的双目标深度强化学习路径规划模型;所述状态包括坐标状态、距离状态和cu状态;所述坐标状态包括起点的经纬度坐标和终点的经纬度坐标;所述距离状态为当前节点的所有相邻节点到终点的最短距离;所述cu为除路径距离和行程时间之外的边属性;所述cu状态通过连接到当前节点的所有边的cu的权重来表示,用于表示第二优化目标的状态,帮助智能体学习cu的空间特征;所述第二优化目标为最小化损失或最大化效用;所述奖励函数r用于计算当前步骤中主要目标和第二目标的综合奖励;所述主要目标为最小化路径距离;S2、对待训练的双目标路径规划模型进行训练,使其学习到能够获得最大累积奖励的最优策略π*,得到训练后的双目标路径规划模型;所述累积奖励为奖励函数给出的即时奖励与双目标路径规划模型中神经网络估计的附加未来奖励之和;S3、使用训练后的双目标路径规划模型,进行双目标路径规划。2.如权利要求1所述的基于深度强化学习的双目标路径规划方法,其特征在于:S1中,所述奖励函数其中,rdest表示主要目标奖励,rcu表示第二目标奖励,所述主要目标奖励为路径距离最小化的奖励,所述第二目标奖励为路径cu优化的奖励;α为预设的用于权衡主要目标和第二目标的超参数,当cu表示效用时,α为正,cu表示损失时,α为负;为0或1,为0表示智能体未到达终点,为1表示智能体到达终点;rT为附加未来奖励。3.如权利要求2所述的基于深度强化学习的双目标路径规划方法,其特征在于:S1中,所述主要目标奖励rdest=norm‑1,1(diseff),式中,diseff表示路径的有效距离。4.如权利要求3所述的基于深度强化学习的双目标路径规划方法,其特征在于:diseff=(|NoNd|‑|A1Nd|)‑|A1Na|,其中,|NoNd|‑|A1Nd|为智能体沿方向移动的距离;|A1Na|为偏离方向的距离;No为起点;Nd为终点;A1为以终点Nd为坐标原点、以方向为x轴、以法线方向为y轴建立坐标系后,从Na点向x轴作垂线的垂足点;Na点为起点No的一个相邻节点,5.如权利要求4所述的基于深度强化学习的双目标路径规划方法,其特征在于:S1中,rcu=norm0,1(cua),其中,cua为智能体的动作对应的边上的cu权重。6.如权利要求5所述的基于深度强化学习的双目标路径规划方法,其特征在于:S1中,所述积累奖励其中,t为当前步骤;T为终止步骤;rt表示智能体根据对应策略执行当前步骤后的即时奖励;γ为折扣因子且γ∈[0,1],用于衡量未来步骤产生的奖励的重要性。7.如权利要求6所述的基于深度强化学习的双目标路径规划方法,其特征在于:S2中,对待训练的双目标路径规划模型进行训练时,采用双重深度Q网络进行训练,所述双重深度网络包括Q网络与目标网络,通过Q网络和目标网络将动作选择和评估解耦;所述Q网络与目标网络均为神经网络。8.如权利要求7所述的基于深度强化学习的双目标路径规划方法,其特征在于:S2中,对待训练的双目标路径规划模型进行训练时,还包括转移预处理,预处理被输入到双目标2CN115033000A权利要求书2/2页路径规划模型的神经网络中的转移;所述转移为一个动作完成后,与该动作相对应的经验。9.如权利要求8所述的基于深度强化学习