预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115860105A(43)申请公布日2023.03.28(21)申请号202211584429.0(22)申请日2022.12.09(71)申请人中国科学院软件研究所地址100190北京市海淀区中关村南四街4号(72)发明人薛云志刘光镇孟令中董乾陈贺师源李瑞任红萍杨光(74)专利代理机构北京君尚知识产权代理有限公司11200专利代理师余长江(51)Int.Cl.G06N3/092(2023.01)G06N3/049(2023.01)G06N3/0464(2023.01)权利要求书2页说明书13页附图5页(54)发明名称行人模型的训练方法、装置、电子设备以及存储介质(57)摘要本公开涉及一种行人模型的训练方法、装置、电子设备以及存储介质,属于自动驾驶技术领域。所述方法包括:构建行人模型;根据仿真系统的地图信息和仿真系统中目标车辆的行驶信息,得到行人模型的训练数据;其中,目标车辆为仿真系统中正在行驶的车辆,且目标车辆与行人模型发生交通事故的概率大于预设概率;利用训练数据,对行人模型进行强化学习的训练,以使训练后的行人模型与目标车辆发生交通事故的概率大于预设阈值,预设阈值大于预设概率。本公开可以通过行人模型模拟实际开放道路场景下的各种突发情况,对自动驾驶车辆进行有效的测试。CN115860105ACN115860105A权利要求书1/2页1.一种行人模型的训练方法,其特征在于,包括:构建行人模型;根据仿真系统的地图信息和所述仿真系统中目标车辆的行驶信息,得到所述行人模型的训练数据;其中,所述目标车辆为所述仿真系统中正在行驶的车辆,且所述目标车辆与所述行人模型发生交通事故的概率大于预设概率;所述行驶信息包括所述目标车辆的位置和/或速度;利用所述训练数据,对所述行人模型进行强化学习的训练,以使训练后的行人模型与所述目标车辆发生交通事故的概率大于预设阈值,所述预设阈值大于所述预设概率;其中,所述行人模型的输入为所述地图信息的状态表征和所述行驶信息的状态表征,所述行人模型的输出为行进动作信息。2.根据权利要求1所述的行人模型的训练方法,其特征在于,所述训练数据中的一组样本包括状态信息、动作信息、奖励信息;所述状态信息包括所述仿真系统的地图信息的状态表征和所述目标车辆的行驶信息的状态表征;或者,所述状态信息包括所述仿真系统的地图信息的状态表征;所述动作信息包括所述行人模型基于输入的所述状态信息输出的行进动作信息;所述奖励信息包括所述行人模型按照所述动作信息向目标地点行进时,根据所述行人模型与所述目标车辆发生交通事故的概率所生成的奖励值。3.根据权利要求2所述的行人模型的训练方法,其特征在于,所述奖励值的生成过程,包括:根据所述行人模型在多个轮次的训练过程中生成的历史行进动作信息和当前轮次的行进动作信息,利用第一神经网络模型得到第一值;其中,所述第一神经网络模型为基于时序的神经网络模型,所述第一值用于指示所述当前轮次的行进动作信息对所述行人模型与所述目标车辆发生交通事故的影响程度;根据所述地图信息中的边框数据,利用第二神经网络模型得到第二值;其中,所述地图信息中的边框数据包括所述行人模型的边框数据和/或所述目标车辆的边框数据,所述第二神经网络模型为卷积神经网络模型,所述第二值用于指示所述行人模型与所述目标车辆之间的位置信息;根据所述第一值和所述第二值,利用线性变换算法,得到所述奖励值;其中,相比于所述行人模型未与所述目标车辆发生交通事故,在所述行人模型与所述目标车辆发生交通事故的情况下,所述行人模型获得的所述奖励值更大。4.根据权利要求2所述的行人模型的训练方法,其特征在于,所述奖励值的生成过程,包括:将所述地图信息中的边框数据,输入卷积神经网络模型,所述卷积神经网络模型通过所述地图信息中的边框数据确定所述行人模型与所述目标车辆是否发生交通事故;在所述行人模型与所述目标车辆发生交通事故的情况下,通过所述卷积神经网络模型输出第一奖励值;在所述行人模型未与所述目标车辆发生交通事故的情况下,。5.根据权利要求2所述的行人模型的训练方法,其特征在于,所述动作信息的生成过程,包括:2CN115860105A权利要求书2/2页将所述仿真系统的地图信息的状态表征输入卷积神经网络模型,得到所述仿真系统中可放置所述行人模型的位置信息;根据所述目标车辆的行驶信息的状态表征,得到先验信息,所述先验信息包括所述目标车辆沿行驶方向的区域信息;根据所述可放置所述行人模型的位置信息和所述先验信息,得到所述动作信息。6.根据权利要求1所述的行人模型的训练方法,其特征在于,所述利用所述训练数据,对所述行人模型进行强化学习的训练之后,还包括:获取所述仿真系统的地图信息和被测试车辆的行驶信息;其中,所述被测试车辆在自