预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115848369A(43)申请公布日2023.03.28(21)申请号202211646001.4(22)申请日2022.12.20(71)申请人江苏大学地址212013江苏省镇江市京口区学府路301号(72)发明人姜顺明吴朋朋(74)专利代理机构南京智造力知识产权代理有限公司32382专利代理师杜丹(51)Int.Cl.B60W30/14(2006.01)B60W50/00(2006.01)权利要求书5页说明书14页附图4页(54)发明名称一种基于深度强化学习的个性化自适应巡航系统及其控制方法(57)摘要本发明公开了一种基于深度强化学习的个性化自适应巡航系统及其控制方法,基于深度强化学习设计个性化的多目标自适应巡航控制系统,基于改进的深度确定性梯度策略,通过设计三种不同控制风格的控制模块,以及对该系统的安全性、跟车性及舒适性进行模块化奖励函数的设计满足不同风格驾驶员对于ACC系统各性能的需求,通过构建相似度函数,将其用于在线动作网络的更新,使其更加符合人类驾驶员的驾驶习惯,通过经验更新模块,提高了各类型驾驶员高价值经验样本的复用率,有效提升了网络的收敛速度,总体提升了ACC系统的个性化及综合性能。CN115848369ACN115848369A权利要求书1/5页1.一种基于深度强化学习的个性化自适应巡航系统,包括环境感知层、上层控制器、下层控制器和执行机构,所述环境感知层获取的信号输入至上层控制器,上层控制器根据输入的信号转化为控制信号输出给下层控制器,下层控制器根据上层控制器输出的控制信号转化为动作指令给执行机构,执行机构根据执行指令运行;其特征在于:所述环境感知层包括毫米波雷达、车速传感器,毫米波雷达获取探测范围内自车与前车的实际间距d信号和相对车速ΔV信号;车速传感器用于获取自车车速Vt信号;所述上层控制器包括驾驶员风格识别器、动作输入计算模块以及深度强化学习模块;所述驾驶员风格识别器包括信号参数记录模块、计算冲击度模块、计算驾驶状态识别系数模块以及识别驾驶风格模块,信号参数记录模块记录由环境感知层传来的自车车速Vt、相对距离d、相对车速ΔV及前方有无车辆的信号,冲击度计算模块根据上述信号计算出冲击度,计算驾驶状态识别系数模块根据计算出的冲击度计算出驾驶员驾驶状态识别系数Rd,识别驾驶风格模块根据计算出驾驶员驾驶状态识别系数Rd判断驾驶员的风格,所述驾驶员的风格包括激进型、一般型和保守型三种类型;所述动作输入计算模块包括激进型动作输入计算模块、一般型动作输入计算模块和保守型动作输入计算模块,所述激进型动作输入计算模块、一般型动作输入计算模块和保守型动作输入计算模块分别包括期望距离计算模块、参数计算模块和参数记录模块;所述深度强化学习模块包括激进型DDPG_aggressive控制模块、一般型DDPG_normal控制模块及保守型DDPG_calm控制模块,根据驾驶风格识别器识别出的驾驶风格,选择对应风格的动作输入计算模块和控制模块;所述下层控制器包括驱动/制动切换模块和期望节气门/制动压力计算模块,驱动/制动切换模块根据上层控制器输出的期望加速度值转化为加速/制动信号,并将加速或制动信号发送至期望节气门/制动压力计算模块,期望节气门/制动压力计算模块计算出节气门开度或者期望制动压力发送至执行机构;所述执行机构包括动力装置控制单元、电子节气门、制动控制单元及制动油缸,动力装置控制单元根据计算出的节气门开度控制电子节气门,制动控制单元根据期望制动压力控制制动油缸。2.根据权利要求1所述的基于深度强化学习的个性化自适应巡航系统的控制方法,其特征在于,包括以下步骤:步骤一、启动系统,毫米波雷达获取探测范围内是否有前车,无前车则保持设定车速行驶,有前车则进入步骤二;步骤二、采集信号参数,毫米波雷达和车速传感器分别检测获得与前车的相对距离d和相对速度ΔV以及自车速度Vt信号;步骤三、录入信号参数,将步骤二中获得的信号参数输入至信号参数记录模块中并保存;步骤四、识别驾驶风格,识别驾驶风格模块根据参数记录模块中的信号参数判断当前驾驶员的风格;若判定为激进型,则进入步骤五;若不是激进型则进一步判定是否为一般型,若是一般型,则进入步骤六;若不是一般型则判定为保守型,则进入步骤七;将驾驶员的识别结果存储在识别驾驶风格模块中;步骤五、切换至激进型控制模式,识别驾驶风格模块判定的驾驶风格为激进型,则将信2CN115848369A权利要求书2/5页号参数记录模块中存储的信号参数输入到激进型动作输入计算模块中,输出为本车与前车之间的状态量,激进型DDPG_aggressive控制模块与激进型动作输入计算模块相连,以状态量作为输入,输出为激进型驾驶员的期望加速度;步骤六、切换至一般型控