预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113734170A(43)申请公布日2021.12.03(21)申请号202110954994.0G06N3/08(2006.01)(22)申请日2021.08.19(71)申请人崔建勋地址150090黑龙江省哈尔滨市南岗区黄河路73号哈工大交通学院成和楼210(72)发明人崔建勋要甲(74)专利代理机构哈尔滨华夏松花江知识产权代理有限公司23213代理人张利明(51)Int.Cl.B60W30/18(2012.01)B60W60/00(2020.01)B60W50/00(2006.01)G06N3/04(2006.01)G06N3/06(2006.01)权利要求书2页说明书6页附图1页(54)发明名称一种基于深度Q学习的自动驾驶换道决策方法(57)摘要一种基于深度Q学习的自动驾驶换道决策方法,属于自动驾驶技术领域。解决了现有自动驾驶车辆基于强化学习进行换道决策,由于驾驶环境状态复杂,导致学习的效率很低的问题。本发明采集目标自动驾驶车辆前后和同向左和/或右车道车辆的相对位置及与相对速度;将相对位置及与相对速度作为环境向量,输入至经Q值函数训练的全连接神经网络,获得所有换道动作的Q值估计值;判断所有换道动作是否属于当前时刻安全动作集合,提取属于当前时刻安全动作集合的换道动作;采用Argmax函数,从所述属于当前时刻安全动作集合提取Q值估计值最大的换道动作,将Q值估计值最大的换道动作作为下一时刻的换道动作。本发明适用于自动驾驶换道。CN113734170ACN113734170A权利要求书1/2页1.一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,包括:步骤一、采集目标自动驾驶车辆前后和同向左和/或右车道车辆的相对位置及与相对速度;步骤二、将步骤一所述的相对位置及与相对速度作为环境向量,输入至经Q值函数训练的全连接神经网络,获得所有换道动作的Q值估计值;步骤三、判断所有换道动作是否属于当前时刻安全动作集合,提取属于当前时刻安全动作集合的换道动作;步骤四、采用Argmax函数,从所述属于当前时刻安全动作集合提取Q值估计值最大的换道动作,将所述Q值估计值最大的换道动作作为下一时刻的换道动作。2.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,步骤二中所述的环境向量包括:同向车道的环境车辆与目标自动驾驶车辆的相对位置和相对速度,当环境为同向为三车道时表示为:s=[drlq,vrlq,drcq,vrcq,drrq,vRL,drqf,vrqf,drcf,vrcf,drrf,vrrf,]其中,s为环境向量,dr,vr分别表示环境车辆与目标自动驾驶车辆的相对位置和相对速度,其角标第一个字母l,c,r分别表示左侧车道、当前车道和右侧车道,第二个字母q,f分别表示前方车辆、后方车辆;vRL表示目标自动驾驶车辆的速度。3.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,步骤二中所述的换道动包括向左换道、保持当前车道和向右换道。4.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,骤二中,获得所有换道动作的Q值估计值方法为:利用奖励函数对驾驶速度进行拟合;所述奖励函数为:rt=‑|vRL,t‑vdes,t|当目标自动驾驶车辆行驶速度越接近期望速度,奖励值越高,其中,vdes,t为t时刻的期望速度;vRL,t为t时刻目标自动驾驶车辆的实际速度;利用奖励函数计算当前时刻的Q值估计值yt:其中,a′为下一时刻选择的换道动作,st+1是下一时刻自动驾驶车辆所处的环境状态向量,θ是当前时刻带有全连接神经网络的参数;Q(st+1,a′;θ)为全连接神经网络对下一时刻Q值的估计值。5.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,当前时刻安全动作集合为:其中,Asafe(t)为当前时刻的安全动作的集合,为自动驾驶车辆当前车道在时刻t的安全行驶空间,为自动驾驶车辆左侧车道在时刻t的安全行驶空间,为自动驾驶车辆右侧车道在时刻t的安全行驶空间,pa(t)为t时刻自动驾驶车辆的执行动作a后的位置,a表示当前时刻的换道动作,A为换道动作集合,2CN113734170A权利要求书2/2页A={a1=向左换道,a2=保持当前车道,a3=向右换道},[tb,th]为动作a执行的时间范围,tb为开始执行动作a的时间,th执行动作a结束的时间。6.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法,其特征在于,自动驾驶车辆当前车道在时刻t的安全行驶空间自动驾驶车辆左侧车道在时刻t的安全行驶空间和自动驾驶车辆右侧车道在时刻t的安全行驶空间的获取方法相同,自动驾驶车辆当前车道在时刻t的安全行驶