预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115951587A(43)申请公布日2023.04.11(21)申请号202310226674.2(22)申请日2023.03.10(71)申请人苏州浪潮智能科技有限公司地址215100江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢(72)发明人邓琪李茹杨胡奇夫张亚强赵雅倩李仁刚(74)专利代理机构北京集佳知识产权代理有限公司11227专利代理师赵怡琳(51)Int.Cl.G05B13/04(2006.01)权利要求书4页说明书16页附图5页(54)发明名称自动驾驶控制方法、装置、设备、介质及自动驾驶车辆(57)摘要本申请涉及交通运输技术领域,具体公开了一种自动驾驶控制方法、装置、设备、介质及自动驾驶车辆,通过用于采集自动驾驶环境特征的自动驾驶环境感知网络和驾驶决策网络构建初始驾驶决策模型,自初始驾驶决策模型起,在每次迭代训练中采用量化后的驾驶决策模型执行与自动驾驶环境的环境交互推理任务,生成包括驾驶状态、驾驶动作和环境奖励的训练数据以更新驾驶决策模型,降低了驾驶决策模型训练过程中的内存占用和通信任务量,从而可以在满足环境交换量的同时占用更少的计算资源得到可以执行自动驾驶任务的最终驾驶决策模型,实现更少的计算资源需求和更高效的自动驾驶方案落地,利用自动驾驶技术的推广与应用。CN115951587ACN115951587A权利要求书1/4页1.一种自动驾驶控制方法,其特征在于,包括:构建用于采集自动驾驶环境特征的自动驾驶环境感知网络;构建以自动驾驶环境特征为状态输入数据的驾驶决策网络,用于基于采集到的所述自动驾驶环境特征来生成驾驶动作的决策;根据所述自动驾驶环境感知网络和所述驾驶决策网络生成初始驾驶决策模型;自所述初始驾驶决策模型起,对每次迭代训练中的驾驶决策模型进行量化处理,得到量化驾驶决策模型,并采用所述量化驾驶决策模型执行与自动驾驶环境的环境交互推理任务,生成训练数据,再利用所述训练数据更新所述驾驶决策模型,直至训练结束,得到最终驾驶决策模型;将实时自动驾驶环境特征输入所述最终驾驶决策模型,得到自动驾驶策略,并根据所述自动驾驶策略控制车辆的驾驶动作;其中,所述自动驾驶环境特征包括特征融合后的环境状态信息与车辆状态信息;每个所述训练数据均包括驾驶状态、驾驶动作和环境奖励。2.根据权利要求1所述的自动驾驶控制方法,其特征在于,所述环境状态信息具体为车辆鸟瞰图;所述环境状态信息的获取过程,具体包括:获取车辆监控视频;对所述车辆监控视频进行目标检测处理、数据融合处理以及语义分割处理,自原始多模态感知信息中构建得到包含关键环境语义信息的所述车辆鸟瞰图。3.根据权利要求2所述的自动驾驶控制方法,其特征在于,所述关键环境语义信息具体包括:目标车辆的车辆信息、所述目标车辆的背景建筑信息、可行驶区域信息、交通标志信息、所述目标车辆的交通参与者信息中的至少一种。4.根据权利要求1所述的自动驾驶控制方法,其特征在于,采集所述自动驾驶环境特征具体包括:利用车载传感设备和/或路面监控设备采集所述环境状态信息;利用所述自动驾驶环境感知网络中的卷积网络自所述环境状态信息中提取低维潜在关键环境特征;利用所述自动驾驶环境感知网络中的第一全连接网络对所述车辆状态信息进行编码,得到车辆状态特征;利用所述自动驾驶环境感知网络中的第二全连接网络对所述低维潜在关键环境特征和所述车辆状态特征进行特征融合,得到所述自动驾驶环境特征。5.根据权利要求4所述的自动驾驶控制方法,其特征在于,所述低维潜在关键环境特征具体包括:目标车辆与前方车辆的距离、所述目标车辆到最近停车位置的距离、所述目标车辆与车道标识的距离、距离所述目标车辆最近的交通灯状态中的至少一种。6.根据权利要求1所述的自动驾驶控制方法,其特征在于,所述根据所述自动驾驶环境感知网络和所述驾驶决策网络生成初始驾驶决策模型,具体为:将所述自动驾驶环境感知网络嵌入所述驾驶决策网络的训练中,利用梯度传播与所述驾驶决策网络一同更新参数。7.根据权利要求1所述的自动驾驶控制方法,其特征在于,所述驾驶决策网络具体为近2CN115951587A权利要求书2/4页端策略优化网络;所述近端策略优化网络具体包括:用于选取车辆动作的策略网络以及用于评估动作优劣以指导所述驾驶决策模型优化的价值网络。8.根据权利要求1所述的自动驾驶控制方法,其特征在于,所述根据所述自动驾驶环境感知网络和所述驾驶决策网络生成初始驾驶决策模型,具体包括:构建随机生成初始化参数的所述初始驾驶决策模型;采用所述初始驾驶决策模型执行所述环境交互推理任务,生成初始交互数据;将所述初始交互数据存入数据缓存区,直至填满所述数据缓存区后,进入所述自所述初始驾驶决策模型起,对每次迭代训练中的驾驶决策模型进行量化