预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114117883A(43)申请公布日2022.03.01(21)申请号202111079240.1(22)申请日2021.09.15(71)申请人兰州理工大学地址730050甘肃省兰州市七里河区兰工坪路287号(72)发明人黄黛麟马佳林侯亮陈作汉曹洁(74)专利代理机构北京棘龙知识产权代理有限公司11740代理人张开(51)Int.Cl.G06F30/27(2020.01)G06K9/62(2022.01)G06Q50/30(2012.01)权利要求书2页说明书11页附图2页(54)发明名称一种基于强化学习的自适应轨道交通调度方法、系统、终端(57)摘要本发明属于交通调度技术领域,公开了一种基于强化学习的自适应轨道交通调度方法、系统、终端,基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型;确定从环境中提取特征的轨道交通调度方案,进行轨道交通调度。本发明提供了一个基于强化学习的自适应轨道交通调度方法,可以根据乘客数目来调度轨道交通车辆,使得有关公司在保证乘客满意度的同时,保证收益最大化。本发明的基于深度强化学习方法的列车调度方案有着自适应客流量的优点,在保证载客率的同时,使得运营成本与顾客等待时间更低。CN114117883ACN114117883A权利要求书1/2页1.一种基于强化学习的自适应轨道交通调度方法,其特征在于,所述基于强化学习的自适应轨道交通调度方法包括:步骤一,建立适用于强化学习的轨道列车调度的马尔可夫决策模型;步骤二,结合基于值函数的深度强化学习方法,进行特征提取,确定从环境中提取特征的轨道交通调度方案,进行轨道交通调度。2.如权利要求1所述基于强化学习的自适应轨道交通调度方法,其特征在于,所述建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括:基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型。3.如权利要求2所述基于强化学习的自适应轨道交通调度方法,其特征在于,所述基于常发性客流量与偶发性客流量的环境建模方法,建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括:建立轨道列车与待乘乘客之间的环境模型,并基于建立的轨道列车与待乘乘客之间的环境模型建立MDP模型;通过分析常发性客流量和偶发性客流量的特点,基于分析结果细化所述环境模型,得到适用于强化学习的轨道列车调度的马尔可夫决策模型。4.如权利要求1所述基于强化学习的自适应轨道交通调度方法,其特征在于,所述确定从环境中提取特征的轨道交通调度方案包括:利用DoubleDQN算法获得轨道交通调度方案。5.如权利要求1所述基于强化学习的自适应轨道交通调度方法,其特征在于,所述利用DoubleDQN算法获得轨道交通调度方案之前还需进行:将顺序采集的数据存储在数据库中,利用均匀随机采样的方法从数据库中抽取数据,利用抽取的数据训练神经网络。6.如权利要求5所述基于强化学习的自适应轨道交通调度方法,其特征在于,所述神经网络损失函数如下:7.如权利要求1所述基于强化学习的自适应轨道交通调度方法,其特征在于,所述从环境中提取特征包括:利用下式进行特征信息的提取:8.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行如权利要求1‑7任意一项所述基于强化学习的自适应轨道交通调度方法,包括下列步骤:步骤一,建立适用于强化学习的轨道列车调度的马尔可夫决策模型;步骤二,结合基于值函数的深度强化学习方法,进行特征提取,确定从环境中提取特征的轨道交通调度方案,进行轨道交通调度。9.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求1‑7任意一项所述基于强化学习的自适应轨道交通调度方法。2CN114117883A权利要求书2/2页10.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施如权利要求1‑7任意一项所述基于强化学习的自适应轨道交通调度方法。3CN114117883A说明书1/11页一种基于强化学习的自适应轨道交通调度方法、系统、终端技术领域[0001]本发明属于交通调度技术领域,尤其涉及一种基于强化学习的自适应轨道交通调度方法、系统、终端。背景技术[0002]目前,轨道交通因路线稳定、没有拥堵烦恼等优点一直是备受欢迎的出行方式。目前轨道交通所采用的调度方式是固定配时,即在高峰期车辆间隔较短,在平峰期车辆间隔稍长一些,这种调度方案看似是一种较为合理的方案,但是存在以下缺点:(1)但是可能会产生一些突发事件打破这种规律,使得乘客等待时间较长进而发生拥挤踩踏事件。(2)由于一些大型事件的结束或者其他原因导致乘客急剧减少,这样会