一种基于强化学习的自适应轨道交通调度方法、系统、终端-豆柴文库

一种基于强化学习的自适应轨道交通调度方法、系统、终端.pdf

2023-07-24

10金币

983KB

16页

一条****彩妍

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共16页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114117883A(43)申请公布日2022.03.01(21)申请号202111079240.1(22)申请日2021.09.15(71)申请人兰州理工大学地址730050甘肃省兰州市七里河区兰工坪路287号(72)发明人黄黛麟马佳林侯亮陈作汉曹洁(74)专利代理机构北京棘龙知识产权代理有限公司11740代理人张开(51)Int.Cl.G06F30/27(2020.01)G06K9/62(2022.01)G06Q50/30(2012.01)权利要求书2页说明书11页附图2页(54)发明名称一种基于强化学习的自适应轨道交通调度方法、系统、终端(57)摘要本发明属于交通调度技术领域，公开了一种基于强化学习的自适应轨道交通调度方法、系统、终端，基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型；确定从环境中提取特征的轨道交通调度方案，进行轨道交通调度。本发明提供了一个基于强化学习的自适应轨道交通调度方法，可以根据乘客数目来调度轨道交通车辆，使得有关公司在保证乘客满意度的同时，保证收益最大化。本发明的基于深度强化学习方法的列车调度方案有着自适应客流量的优点，在保证载客率的同时，使得运营成本与顾客等待时间更低。CN114117883ACN114117883A权利要求书1/2页1.一种基于强化学习的自适应轨道交通调度方法，其特征在于，所述基于强化学习的自适应轨道交通调度方法包括：步骤一，建立适用于强化学习的轨道列车调度的马尔可夫决策模型；步骤二，结合基于值函数的深度强化学习方法，进行特征提取，确定从环境中提取特征的轨道交通调度方案，进行轨道交通调度。2.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括：基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型。3.如权利要求2所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述基于常发性客流量与偶发性客流量的环境建模方法，建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括：建立轨道列车与待乘乘客之间的环境模型，并基于建立的轨道列车与待乘乘客之间的环境模型建立MDP模型；通过分析常发性客流量和偶发性客流量的特点，基于分析结果细化所述环境模型，得到适用于强化学习的轨道列车调度的马尔可夫决策模型。4.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述确定从环境中提取特征的轨道交通调度方案包括：利用DoubleDQN算法获得轨道交通调度方案。5.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述利用DoubleDQN算法获得轨道交通调度方案之前还需进行：将顺序采集的数据存储在数据库中，利用均匀随机采样的方法从数据库中抽取数据，利用抽取的数据训练神经网络。6.如权利要求5所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述神经网络损失函数如下：7.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述从环境中提取特征包括：利用下式进行特征信息的提取：8.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行如权利要求1‑7任意一项所述基于强化学习的自适应轨道交通调度方法，包括下列步骤：步骤一，建立适用于强化学习的轨道列车调度的马尔可夫决策模型；步骤二，结合基于值函数的深度强化学习方法，进行特征提取，确定从环境中提取特征的轨道交通调度方案，进行轨道交通调度。9.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求1‑7任意一项所述基于强化学习的自适应轨道交通调度方法。2CN114117883A权利要求书2/2页10.一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施如权利要求1‑7任意一项所述基于强化学习的自适应轨道交通调度方法。3CN114117883A说明书1/11页一种基于强化学习的自适应轨道交通调度方法、系统、终端技术领域[0001]本发明属于交通调度技术领域，尤其涉及一种基于强化学习的自适应轨道交通调度方法、系统、终端。背景技术[0002]目前，轨道交通因路线稳定、没有拥堵烦恼等优点一直是备受欢迎的出行方式。目前轨道交通所采用的调度方式是固定配时，即在高峰期车辆间隔较短，在平峰期车辆间隔稍长一些，这种调度方案看似是一种较为合理的方案，但是存在以下缺点：(1)但是可能会产生一些突发事件打破这种规律，使得乘客等待时间较长进而发生拥挤踩踏事件。(2)由于一些大型事件的结束或者其他原因导致乘客急剧减少，这样会

相关资料

一种基于强化学习的自适应轨道交通调度方法、系统、终端.pdf

本发明属于交通调度技术领域，公开了一种基于强化学习的自适应轨道交通调度方法、系统、终端，基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型；确定从环境中提取特征的轨道交通调度方案，进行轨道交通调度。本发明提供了一个基于强化学习的自适应轨道交通调度方法，可以根据乘客数目来调度轨道交通车辆，使得有关公司在保证乘客满意度的同时，保证收益最大化。本发明的基于深度强化学习方法的列车调度方案有着自适应客流量的优点，在保证载客率的同时，使得运营成本与顾客等待时间更低。

2023-07-24

983KB

一种基于深度学习的自适应经济调度系统及方法.pdf

本发明公开了一种基于深度学习的自适应经济调度系统，其特征在于：它包括负荷矩阵构建模块、自适应学习模型及训练样本集构建模块、学习模型的训练目标构建模块、差异化训练样本集构建模块、长短期记忆网络构建模块和实时经济调度自适应学习模型构建模块；本发明基于完美调度理念生成学习模型训练目标，并利用系统中存储的海量历史数据对LSTM‑IIU网络对进行训练，一旦学习模型构建完成，将目标调度时刻的预测数据输入即可得到对应的实时经济调度方案。

2023-07-24

644KB

一种基于深度强化学习的集群任务调度方法及系统.pdf

本发明提出一种基于深度强化学习的集群任务调度方法及系统，包括采用强化学习对异构计算资源平台中的任务进行实时调度，将计算平台中物理机组别信息、来自用户的任务需求信息以及任务执行成本作为强化学习的状态空间，将可用的物理机组集合作为强化学习的动作空间，通过深度Q网络方法，通过与异构计算平台环境信息的变化，学习适应动态变化的任务类型在异构资源物理机上的不同执行效率，资源利用效率即物理机执行任务时的资源使用占比；采用遗传算法，在前一步决策结果产生的物理机组中，根据不同物理机的资源使用情况，最大化资源利用效率，进行任

2023-06-04

1.8MB

一种AFDX终端系统基于子虚链路的调度方法.pdf

本发明涉及一种AFDX终端系统基于子虚链路的调度方法，采用将不同长度等级的虚拟链路分成各个等级分级调度，每个等级内部再进行子虚拟链路轮询的方式选择需要发送的链路，使得不同队列能最大限度的平等地利用带宽资源，达到增大带宽利用率，减小平均发送延迟的目的。

2023-09-14

421KB

一种基于深度强化学习的出租车调度方法及系统.pdf

本发明涉及一种基于深度强化学习的出租车调度方法及系统，所述系统包括：区域构建模块、需求预测模块、车辆调度模块、模拟器；所述方法包括：S1：形成区域网络；S2：预测任意区域在任意的时间中将会出现的订单数量；S3：计算出一个区域总的车辆供应；获取每个区域的需求/供应状态；S4：将任意空闲车辆所在区域和邻居区域的状态输入训练好的出租车调度模型中，得到该车辆的调度策略，确定该车是继续留在当地区域还是调度到系统指定的邻居区域中。本发明实现对空闲出租车进行调度，增加了订单匹配成功率，减少了乘客的等待时间，提高了出租车

2023-11-13

892KB