一种具有位置感知的路口交通信号灯调控方法与流程

    专利2022-07-08  86


    本发明涉及垃圾分类技术领域,特别是涉及一种智能垃圾分类系统及方法。



    背景技术:

    传统的交通信号灯控制是根据收集到的历史交通数据事先制定控制方案,比如:scats交通信号控制系统根据交通检测器的检测数据计算十字路口的类饱和度与流量两个指标,为十字路口从事先制定的方案中选择合适的信号灯控制方案。smooth交通信号控制系统根据采集到的交通数据,采取“短期预测”的策略得到十字路口当前所处的状态,然后根据状态选择对应的策略方案。scats和smooth交通信号控制系统事先都要考虑十字路口的多种交通状况,并提出应对策略,这样的解决方案需要人工干预,无法很好地适应动态的交通流量。

    随着科技的不断进步,交通系统的研究更加趋向于智能化。人们将人工智能和交通系统结合,其中研究者们开始探索深度强化学习方法在交通信号控制系统中的应用。现有技术中,为每个路口设置一个深度强化学习模型,每个模型根据各自观察到的状态进行决策学习,从而实现多个路口的交通信号灯调控。该方法中,每个路口都有一个独立的模型,无法用在大规模的交通网络中,并且独立学习的模型忽略了相邻路口之间相互影响的事实,无法实现对路口之间的协调控制。考虑到每个路口的决策还受其他路口的影响,对于每个路口,将相邻路口的交通状况与自身拼接,作为该路口的交通状况信息。并且所有路口共享网络模型的参数。但是,在大多数情况下,拼接路口信息可能不是融合来自相邻路口的信息的合理方法,其很难确定相邻路口的拼接顺序。此外,还有采用长短期记忆网络(lstm,longshort-termmemory)将历史的交通信息整合到当前的交通状态中。

    在基于深度强化学习方法提出的交通信号控制方法中,一些方法在状态和奖励设置上进行改进,但是忽略了路口之间的空间关系。也有一些方法考虑了路口之间的空间关系,将交通网络建模为图的形式,采用图神经网络来提取相邻路口的信息,整合到中心路口交通信息中进行决策。但是这些方法只考虑了交通网络的连通性,并且均等地汇总来自相邻路口的交通状况,然而忽略了这些路口的空间位置。而十字路口的空间位置对于协同交通信号灯控制至关重要。

    综上,本发明旨在提出一种



    技术实现要素:

    针对现有技术忽略路口位置信息不足,本发明提出一种具有位置感知的路口交通信号灯调控方法,考虑交通网络图中的位置信息,将图神经网络与强化学习结合,实现了交通网络中多个路口的交通信号灯的协调控制。

    本发明的一种具有位置感知的路口交通信号灯调控方法,方法包括以下具体实现过程:

    步骤1、利用强化学习网络模型进行交通信号控制问题的数学建模:

    将交通网络建模为图的形式并记为g:g=(v,e),v为路口的集合,e为连接两路口的边的集合;将每个路口看为一个智能体,共有n个路口;

    根据交通信号控制问题定义了状态空间、动作空间、奖励如下:

    状态空间记为s:st∈s为t时刻的系统状态,由交通信号网络中所有路口的交通状况信息组成;

    观测空间记为o:为智能体i在t时刻的观测值;由两部分组成:(1)路口当前时刻所处的相位;(2)与路口相连的进入车道上车辆的数量;

    动作空间记为a:为所有智能体在t时刻的联合动作ai,t的集合;

    奖励记为r:每个时刻为每个智能体在t时刻的奖励;具体为智能体i所表示路口的进入车道中车辆总数的负值,即为t时刻在进入车道l中的车辆数量;

    步骤2、进行智能体原始观测值oi的预处理:

    在t时刻,每个智能体的原始局部观测值为每个车道上的车辆数量和交通信号当前所处的相位的拼接向量,通过多层感知机将智能体i的k维原始观测值映射到m维的隐空间中,输出的隐状态hi,t∈rm表示第i个路口在t时刻的交通状况,m为维度,公式如下:

    其中,k为的特征信息维度,wo∈rk×m、bo∈rm分别为多层感知机隐藏层中的权重矩阵和偏置,σ为relu激活函数;

    步骤3、获取智能体之间具有位置感知的边特征:

    选择目标路口i的k维以内的全部路口作为邻居节点集n(i),然后计算目标路口i与相邻路口j∈n(i)的欧式距离d(i,j);基于坐标计算路口i和j之间的欧式距离d(i,j)计算公式如下:

    d(i,j)=f距离(i,j;gw)

    将d(i,j)映射到在[0,1]范围内的数值pi,j来表示路口之间的相对位置关系,公式如下:

    最终得到边特征ei,j=(pi,j,-si,j)表示相邻路口j与目标路口i的相对位置和结构信息;

    步骤4、实现智能体之间的pos-light消息传递模型,进行交通信息的融合,分为以下两个阶段:

    1)边的特征信息与相邻路口信息的整合

    对于任意的邻居路口j∈n(i),n(i)为目标路口i的相邻路口集合ei,j=(pi,j,-si,j)为i,j的边的特征信息;针对两种类型的边的特征编码邻居路口的交通信息,表达式如下:

    其中,使用多层感知机保留了相邻路口j相对于目标路口i的空间结构信息si,j∈rl,l为目标路口的邻居节点个数,ws∈rl×m为网络的权重矩阵,bs∈rm为网络的偏置,

    汇总邻居路口的交通消息然后对总信息进行编码以获得相邻路口j的包含位置信息的最终交通消息hi,j,表达式如下:

    其中,we∈rm×n为网络的权重矩阵,be∈rn为网络的偏置,hi.j∈rn为相邻路口j对于目标路口i的位置信息;

    2)更新目标路口的交通状况表征:

    在此阶段,通过聚合目标路口i周边的交通信息来更新每个路口的交通状况表征

    其中,wh∈rn×c为网络的权重矩阵,bh∈rc为网络偏置,聚合了目标路口i周围交通状况的重要信息,使智能体能够更高效的进行决策;

    步骤5、实现q网络的路口交通信号灯调控决策:

    对于每个智能体(即目标路口i),将输入q网络,智能体根据q网络的输出,使用ε-贪心算法来选择动作,即令ε=p,p∈[0,1],在[0,1]范围内生成随机数q,如果q<ε=p,则从可选动作中随机选择一个动作,否则选择使q值最大的动作为当前时刻智能体的动作;

    在t时刻,每个智能体的q值为:

    其中,wd∈rc×d为q网络的权重矩阵,bd∈rd为q网络的偏置,d为动作空间的大小,qi,t∈r|a|,qi,t(a)为动作a对应的q值;

    步骤6、进行基于q网络的调控目标训练:

    将每个t时刻的转移序列(st,at,st 1,rt)存储到经验池d中,其中全局观测值联合动作奖励

    更新模型的损失函数为:

    其中,t是用于模型更新的时间步总数,n为整个交通网络中的路口总数,算法根据损失函数的更新公式来更新训练网络中的参数每经过g轮迭代后,将预测网络中的参数复制给目标网络中的参数

    与现有技术相比,本发明能够达成以下积极的技术效果:

    (1)智能体决策更高效,收敛速度更快,最终得到的策略有效缓解了交通拥堵;

    (2)本发明优于当前使用图神经网络解决交通信号灯控制问题的方法,并且收敛速度更快,结果更平稳。

    附图说明

    图1为本发明的一种具有位置感知的路口交通信号灯调控方法整体流程图;

    图2为交通环境与智能体的交互过程模型示意图;

    图3为道路网络示意图,(3a)平行四边形abcd,(3b)平行四边形a′b′c′d′;

    图4网格式4×4道路网络示意图;

    图5为路口结构示意图;

    图6为为模型pos-light框架示意图;

    图7为训练期间,pos-light(深色连续曲线),positionwithatt(浅色连续曲线)和其他3种rl方法(虚线)在3×3道路网络的性能比较图;

    图8训练期间,pos-light(深色连续曲线),positionwithatt(浅色连续曲线)和其他3种rl方法(虚线)在4×4道路网络的性能

    图9训练期间,pos-light(深色连续曲线),positionwithatt(浅色连续曲线)和其他3种rl方法(虚线)在济南道路网络的性能

    图10训练期间,pos-light(深色连续曲线),positionwithatt(浅色连续曲线)和其他3种rl方法(虚线)在纽约道路网络的性能

    具体实施方式

    下面结合附图和实施例对本发明的技术方案进一步说明。

    强化学习的智能体与环境基于离散的时间步进行交互,具体交互过程见图1。在每个时间步t,智能体从环境中得到当前时刻所处的状态st,以及环境反馈的奖励rt,然后智能体从可选的动作集合中选择一个动作,输入到环境中。环境则根据选择的动作转移到下一个状态st 1,同时给智能体反馈一个奖励rt 1。强化学习的目标就是最大化累积的奖励。

    如图2所示,为交通环境与智能体的交互过程模型示意图。

    如图3所示,为道路网络示意图。与目标路口具有不同距离的邻居路口的交通状况对目标路口的红绿灯决策具有不同的影。a为目标路口,十字路口b,d与a直接相邻,并且距离满足la,b>la,d。在给定城市道路的速度限制下,车辆从路口b到路口a比从路口d到路口a要花费更多的时间,对此得出结论,相邻路口对目标路口的影响随着距离的增加而减小。(2)即使在给定交通网络中任意相邻两路口的距离,仍然会丢失路口的基本结构信息。例如,在给定顶点为a、b、c、d的四边形的任意直接相邻的路口的距离,即la,b>ld,e,la,d>lb,e,仍然无法确定四边形的形状。其可能为图3中的(3a)的平行四边形abcd,或(3b)的正方形a′b′c′d′。然而如果知道a、e之间的距离的之后,就能唯一确认四边形的形状。据此,本发明提出在对角路口增加连边来减少图建模的不确定性。同时也不能忽略路口e的交通状况对目标路口a的交通信号灯控制的影响,路口e的车辆会通过影响其直接相邻的路口以及生活区来影响目标路口a的信号灯控制。

    步骤1、利用强化学习网络模型进行交通信号控制问题的数学建模,包括以下过程:

    将交通网络建模为图的形式并记为g:g=(v,e),v为路口的集合,e为连接两路口的边的集合;将每个路口看为一个智能体,共有n个路口。根据交通信号控制问题定义了状态空间、动作空间、奖励:

    状态空间记为s:st∈s为t时刻的系统状态,由交通信号网络中所有路口的交通状况信息组成。每个智能体只能观测到当前时刻自身的交通状况;

    观测空间记为o:为智能体i在t时刻的观测值。由两部分组成:(1)路口当前时刻所处的相位;(2)与路口相连的进入车道上车辆的数量;

    动作空间记为a:为所有智能体在t时刻的联合动作ai,t的集合;

    奖励记为r:在每个时刻,每个智能体都有各自的奖励。为智能体i在t时刻的奖励,具体为智能体i所表示路口的进入车道中车辆总数的负值,即为t时刻在进入车道l中的车辆数量。

    步骤2、进行智能体原始观测值oi的预处理:

    在t时刻,每个智能体的原始局部观测值为每个车道上的车辆数量和交通信号当前所处的相位的拼接向量,通过多层感知机将智能体i的k维原始观测值映射到m维的隐空间中,输出的隐状态hi,t∈rm表示第i个路口在t时刻的交通状况,m为维度,公式如下:

    其中,k为的特征信息维度,wo∈rk×m、bo∈rm分别为多层感知机隐藏层中的权重矩阵和偏置,σ为relu激活函数;

    步骤3、获取智能体之间具有位置感知的边特征:

    选择目标路口i的k维以内的全部路口作为邻居节点集n(i),然后计算目标路口i与相邻路口j∈n(i)的欧式距离d(i,j),为了保留原始交通网络的结构,本发明还使用0-1向量si,j来区分邻居路口。本发明提出的边距离和区分邻居路口的[0,1]向量可以唯一识别交通网络中的路口,即具有位置感知功能。例如,如图4所示,为一个4×4的网格式交通网络示意图。在给定彩色路口集中任意两个路口之间的距离,可以使用多维放缩恢复它们之间的拓扑结构以此类推,可以恢复其他相似的四个路口集合的空间结构。并且只需要考虑第二跳邻居信息即可恢复拓扑结构,而不是考虑更高跳邻居。因此,交点的位置可以通过提出的边特征信息来定位。每条边增加了距离属性以隐式考虑节点的坐标值。为了编码每个目标路口i的位置信息。综上,本发明将目标交点i和其相邻交点j之间的边缘特征表示为ei,j,它由i,j之间的距离相关数值和j相对于i的连通信息组成。

    首先,基于坐标计算路口i和j之间的欧式距离d(i,j):

    d(i,j)=f距离(i,j;gw)

    因为与目标路口距离较短的邻居路口对目标路口的影响较大,因此本发明将d(i,j)映射到在[0,1]范围内的数值pi,j来表示路口之间的相对位置关系,公式如下:

    此外,添加l1维的[0,1]范围的向量si,j来区分邻路口。具体来说,对于目标路口i,n(i)为相邻路口集。l1是在n(i)中相对于目标路口i的最大跃点。如果n(i)中的相邻路口j位于网络中目标路口i的r-跳处。将si,j中的第r维设置为1,其余维度为0。

    最终得到边特征ei,j=(pi,j,-si,j)表示相邻路口j与目标路口i的相对位置和结构信息。

    步骤4、实现智能体之间的消息传递:

    确保多路口交通网络中路口之间的通讯对于协同控制交通信号灯至关重要。本发明提出的位置感知消息传递模型(pos-light)在传输消息时保留了路口的位置和结构信息。pos-light模型在融合交通信息时,分为以下两个阶段:

    1)边的特征信息与相邻路口信息的整合

    对于任意的邻居路口j∈n(i),n(i)为目标路口i的相邻路口集合ei,j=(pi,j,-si,j)为i,j的边的特征信息。针对两种类型的边的特征编码邻居路口的交通信息,如下所示:

    其中,使用多层感知机保留了相邻路口j相对于目标路口i的空间结构信息si,j∈rl,l为目标路口的邻居节点个数,ws∈rl×m为网络的权重矩阵,bs∈rm为网络的偏置,

    汇总邻居路口的交通消息然后对总信息进行编码以获得相邻路口j的包含位置信息的最终交通消息hi,j,表达式如下:

    其中,we∈rm×n为网络的权重矩阵,be∈rn为网络的偏置,hi.j∈rn为相邻路口j对于目标路口i的位置信息。

    2)更新目标路口的交通状况表征

    在此阶段,通过聚合目标路口i周边的交通信息来更新每个路口的交通状况表征

    其中,wh∈rn×c为网络的权重矩阵,bh∈rc为网络偏置,聚合了目标路口i周围交通状况的重要信息,使智能体能够更高效的进行决策。

    步骤5、实现q网络的路口交通信号灯调控决策决策:

    根据学习到的交通状况为每个路口的交通信号灯做出决策。对于每个智能体(即目标路口i),将输入q网络,智能体根据q网络的输出,使用ε-贪心算法来选择动作,即令ε=p,p∈[0,1],在[0,1]范围内生成随机数q,如果q<ε=p,则从可选动作中随机选择一个动作,否则选择使q值最大的动作为当前时刻智能体的动作。

    在t时刻,每个智能体的q值为:

    其中,wd∈rc×d为q网络的权重矩阵,bd∈rd为q网络的偏置,d为动作空间的大小。qi,t∈ra,qi,t(a)为动作a对应的q值。

    如果每个智能体都有自己的模型,不适合具有大规模路口的交通网络。为了扩大规模,本发明允许所有智能体共享参数并维护一个模型。

    步骤6、进行基于q网络的调控目标训练:

    在q网络中存在结构相同但不同步更新网络参数的目标网络和主网络。目标网络和主网络的参数分别为将每个t时刻的转移序列(st,at,st 1,rt)存储到经验池d中,其中全局观测值联合动作奖励更新模型的损失函数为:

    其中,t为用于模型更新的时间步总数,n为整个交通网络中的路口总数,算法根据损失函数的更新公式来更新训练网络中的参数每经过g轮迭代后,将预测网络中的参数复制给目标网络中的参数

    智能体之间进行通讯实现交通网络中信号灯的协调控制。本发明采用消息传递神经网络框架实现智能体之间的相互通讯,首先对路口的初始交通状况进行预处理,随后基于具有位置感知的边特征聚合每个目标路口的周边交通状况作为路口的最终交通信息,随后输入q网络进行决策,其整体实施过程如图5所示。

    本发明在有四条道路的十字路口上进行算法有效性的验证,其中每条道路中进入车道由直行、左转、右转三条车道组成,具体如图6所示。对于其他类型的路口,比如只有三条道路或每条道路上只有直行、左转车道的路口,可以通过零填充的方法将其统一为实验中的路口类型。

    如表1所示,对于智能体i的动作空间ai组成的智能体的动作空间集由四种情况组成。

    表1

    所达成的调控效果评估如下:

    本发明在支持大型交通信号控制的仿真平台cityflow上进行实验。cityflow将交通状况提供给信号控制方法,并从控制方法中执行交通信号动作。使用以秒为单位的平均行驶时间来评估模型的性能。所有车辆的平均行驶时间是交通领域中评估算法性能最常用的度量,它根据在交通网络中所有车辆花费的平均行驶时间计算得出。

    实验数据使用了合成和真实收集的交通数据来进行实验,更多交通数据可在公开网址中获取1。

    合成数据:实验中,使用不同规模的道路网络来进行性能分析(分别为3×3和4×4的道路网络,每个路口都有四个方向(东南西北),每个方向有三条宽度都为4米的进入车道(左转车道,右转车道和直行车道),并且道路网络的车流量根据对现实车流量模式的分析从高斯分布中采样得到。

    真实数据:实验中使用来自openstreetmap2的济南和纽约道路网络,如表2所示,为现实世界道路网络中的交通流量数据分析,总结了现实世界道路网络中的交通流量数据统计。

    表2

    为了评估本发明模型在交通信号灯控制问题的性能,与两种经典的启发式方法和三种近期提出的强化学习方法进行比较。

    fixedtime:路口的红路灯调控方案从预定义具有周期的规则集中选择,广泛应用于稳定的交通流场景中。

    maxpressur:是目前交通邻域中最好的交通灯调控方法,在每个路口,将当前处于最大压的方向设置为绿灯。

    simpledqnone:每个路口由各自的智能体进行控制,智能体之间没有进行交通状况的交互。

    neighbordqnone:在simpledqnone的基础上,将每个中心路口的邻居路口的交通状况与其自身串联,并且所有智能体共享相同的网络参数,但不会区分不同的邻居路口交通状况。

    colight:最近最好的解决交通灯控制问题的强化学习方法,使用图注意力网络进行交通信号灯的调控,该方法选择固定数量的邻居路口,使用注意力机制来聚合邻居的交通状况信息。

    pos-light:本发明提出的模型,结合提出的具有位置感知的边特征e(i,j)=(pi,j,si,j)来融合每个目标路口周边的交通状况得到路口的状况表征,作为决策q网络的输入,进行决策。

    positionwithatt:在pos-light的基础上加入注意力机制,根据周边路口的交通状况动态学习注意力系数,更好地聚合目标路口的周边交通状况。

    如表3所示,为各个模型在合成数据和真实数据的性能。列出了各个模型在合成数据和真实数据的性能,图7至图10为各个模型在不同数据集下的收敛情况。pos-light及其变体poswithatt在所有道路网络和交通领域中最先进方法(maxpressure)和强化学习方法(colight)相比,均实现了一致的性能改进,其中在合成数据集中的最大改进为4×4道路网络中的23.43%,在真实数据集中的最大改进为纽约数据集中的15.42%。

    simpledqnone在大多数情况下劣于其他强化学习方法,甚至是交通领域的maxpressure方法,因为该模型中的每个智能体都只根据自己的交通状况做出决策,而没有与交通网络中多个路口进行通讯。与simpledqnone相比,neighbordqnone考虑了相邻路口的交通状况,但是它直接将来自上游和下游路口的交通信息连接在一起,而没有考虑邻路口对目标路口的不同重要性,因此该方法的效果也不佳。加入注意力机制的colight忽略了路口的空间位置,因此与pos-light和positionwithatt相比,它在所有情况下的效果都较差。

    除了考虑交叉路口的位置,positionwithatt还结合了注意力机制动态调整相邻路口对目标路口的影响,因此positionwithatt可以从交通状况不同的相邻路口中提取更好的信息,从而使学习更加稳定(详情看图7-图8),并且positionwithatt在某些情况下表现优于pos-light。

    本发明提出了一种用来解决多路口交通信号灯控制的具有位置感知的深度强化学习模型。具体来说,该模型考虑了十字路口的空间位置,并引入了具有位置感知的边信息,以帮助在交通网络中定位十字路口的位置。此外,本发明还基于注意力机制动态调整了相邻路口对目标路口的影响。本发明是首次提出研究十字路口空间位置以促进交通信号灯的协调控制。并且使用合成和真实的数据集进行了广泛的实验,验证了本发明提出的模型在有效性和效率上都优于最新方法。


    技术特征:

    1.一种具有位置感知的路口交通信号灯调控方法,其特征在于,该方法包括以下具体实现过程:

    步骤1、利用强化学习网络模型进行交通信号控制问题的数学建模:

    将交通网络建模为图的形式并记为g:g=(v,e),v为路口的集合,e为连接两路口的边的集合;将每个路口看为一个智能体,共有n个路口;

    根据交通信号控制问题定义了状态空间、动作空间、奖励如下:

    状态空间记为s:st∈s为t时刻的系统状态,由交通信号网络中所有路口的交通状况信息组成;

    观测空间记为o:为智能体i在t时刻的观测值;由两部分组成:(1)路口当前时刻所处的相位;(2)与路口相连的进入车道上车辆的数量;

    动作空间记为a:为所有智能体在t时刻的联合动作ai,t的集合;

    奖励记为r:每个时刻rit为每个智能体在t时刻的奖励;具体为智能体i所表示路口的进入车道中车辆总数的负值,即为t时刻在进入车道l中的车辆数量;

    步骤2、进行智能体原始观测值oi的预处理:

    在t时刻,每个智能体的原始局部观测值为每个车道上的车辆数量和交通信号当前所处的相位的拼接向量,通过多层感知机将智能体i的k维原始观测值映射到m维的隐空间中,输出的隐状态hi,t∈rm表示第i个路口在t时刻的交通状况,m为维度,公式如下:

    其中,k为的特征信息维度,wo∈rk×m、bo∈rm分别为多层感知机隐藏层中的权重矩阵和偏置,σ为relu激活函数;

    步骤3、获取智能体之间具有位置感知的边特征:

    选择目标路口i的k维以内的全部路口作为邻居节点集n(i),然后计算目标路口i与相邻路口j∈n(i)的欧式距离d(i,j);基于坐标计算路口i和j之间的欧式距离d(i,j)计算公式如下:

    d(i,j)=f距离(i,j;gw)

    将d(i,j)映射到在[0,1]范围内的数值pi,j来表示路口之间的相对位置关系,公式如下:

    最终得到边特征ei,j=(pi,j,-si,j)表示相邻路口j与目标路口i的相对位置和结构信息;

    步骤4、实现智能体之间的pos-light消息传递模型,进行交通信息的融合,分为以下两个阶段:

    1)边的特征信息与相邻路口信息的整合

    对于任意的邻居路口j∈n(i),n(i)为目标路口i的相邻路口集合ei,j=(pi,j,-si,j)为i,j的边的特征信息;针对两种类型的边的特征编码邻居路口的交通信息,表达式如下:

    其中,使用多层感知机保留了相邻路口j相对于目标路口i的空间结构信息si,j∈rl,l为目标路口的邻居节点个数,ws∈rl×m为网络的权重矩阵,bs∈rm为网络的偏置,

    汇总邻居路口的交通消息然后对总信息进行编码以获得相邻路口j的包含位置信息的最终交通消息hi,j,表达式如下:

    其中,we∈rm×n为网络的权重矩阵,be∈rn为网络的偏置,hi.j∈rn为相邻路口j对于目标路口i的位置信息;

    2)更新目标路口的交通状况表征:

    在此阶段,通过聚合目标路口i周边的交通信息来更新每个路口的交通状况表征

    其中,wh∈rn×c为网络的权重矩阵,bh∈rc为网络偏置,聚合了目标路口i周围交通状况的重要信息,使智能体能够更高效的进行决策;

    步骤5、实现q网络的路口交通信号灯调控决策:

    对于每个智能体(即目标路口i),将输入q网络,智能体根据q网络的输出,使用ε-贪心算法来选择动作,即令ε=p,p∈[0,1],在[0,1]范围内生成随机数q,如果q<ε=p,则从可选动作中随机选择一个动作,否则选择使q值最大的动作为当前时刻智能体的动作;

    在t时刻,每个智能体的q值为:

    其中,wd∈rc×d为q网络的权重矩阵,bd∈rd为q网络的偏置,d为动作空间的大小,qi,t∈r|a|,qi,t(a)为动作a对应的q值;

    步骤6、进行基于q网络的调控目标训练:

    将每个t时刻的转移序列(st,at,st 1,rt)存储到经验池d中,其中全局观测值联合动作奖励

    更新模型的损失函数为:

    其中,t为用于模型更新的时间步总数,n为整个交通网络中的路口总数,算法根据损失函数的更新公式来更新训练网络中的参数每经过g轮迭代后,将预测网络中的参数复制给目标网络中的参数

    技术总结
    本发明公开了一种具有位置感知的路口交通信号灯调控方法,步骤1、利用强化学习网络模型进行交通信号控制问题的数学建模,包括将交通网络建模为图的形式以及根据交通信号控制问题定义了状态空间、动作空间、奖励;步骤2、进行智能体原始观测值oi的预处理;步骤3、获取智能体之间具有位置感知的边特征;步骤4、实现智能体之间的Pos‑Light消息传递模型;步骤5、实现Q网络的路口交通信号灯调控决策;步骤6、进行基于Q网络的调控目标训练。与现有技术相比,本发明(1)智能体决策更高效,收敛速度更快,最终得到的策略有效缓解了交通拥堵;(2)优于当前使用图神经网络解决交通信号灯控制问题的方法,并且收敛速度更快,结果更平稳。

    技术研发人员:郭健;李克秋;郝建业
    受保护的技术使用者:天津大学
    技术研发日:2020.11.19
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-15134.html

    最新回复(0)