资源描述:
《基于车均延误最小的Q学习交通信号控制方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第25卷第3期交通科学与工程Vol.25No.32009年9月JOURNALOFTRANSPORTSCIENCEANDENGINEERINGSep.2009文章编号:1674-599X(2009)03-0090-05基于车均延误最小的Q学习交通信号控制方法沈文,李志强(长沙理工大学公路工程省部共建教育部重点实验室,湖南长沙410004)摘要:为了检测Q学习算法在信号控制方案中的效果,在Webster配时法的基础上,建立了适应交通信号控制及以车均延误最小为目标的奖惩函数,并详细说明了Q学习独立交叉口信号控制的原理和应用过程.通过流量波
2、动大和小两个算例,验证了Q学习控制优于定时控制.关键词:交通信号控制;Q学习;智能体+中图分类号:U491.54文献标识码:AQ2learningtrafficsignalcontrolbasedontheminimizationofaveragedelaySHENWen,LIZhi2qiang(KeyLaboratoryforHighwayEngineeringofMinistryofEducationBuiltbyProvinceandMinistry,ChangshaUniversityofScience&Technology
3、,Changsha410004,China)Abstract:ThegoalofthepaperistodetecttheeffectofQ2learningmethodontrafficsignalcontrol.BasedonWebsterpstimingalgorithm,areward2penaltyfunctionadaptabletotrafficsig2nalcontrolfortheminimizationofaveragedelayisestabilished.Italsoillustratesthecontrol
4、theoryandapplicationprocessofQ2learningsignalcontrolinsingleintersection.Fromthetwoexamplesinlargeandsmallflowfluctuation,theauthorverifiedthatQ2learningcontrolisbetterthanfixed2timecontrol.Keywords:trafficsignalcontrol;Q2learning;agents对城市交通路网的信号控制优化是解决交通况下,一个独立的控制模式不
5、可能适合每种潜在问题的重要方法.平面交叉口的通行能力不足是的交通环境.造成大城市交通拥堵的最主要原因,因此,如何优定时信号控制不能根据到达交叉口交通量的化交通信号控制系统是交通管理中关键的工作.变化而改变,为避免该缺点,科学家们提出了利用单个路口是交通网中最基本的节点,它的交通信智能体自主学习的适应式交通信号控制方法———[1]号控制优化是缓解城市交通拥堵的基础.机械学习算法.英国学者Watkins提出加强学交通信号控制优化是很复杂的问题,对于不习,智能体与环境相互作用,并对环境给予的奖励同的年、月、日和时,交通流量总是在不断地变化
6、(惩罚)来学习改进,可以进行自主学习.美国学者[2]之中.事实上,绝大多数信号灯仍采用传统的信号Thorpe等人将加强学习应用在交通信号控制领控制系统———定时信号控制,其局限性体现在需域,采用加强学习中的SARSA(状态-动作,回报预先对环境指定一个或者多个控制模式.通常情-状态、动作)算法,基于信号灯的价值函数,预测收稿日期:2009-04-02基金项目:湖南省教育厅科研资助项目(09A003);长沙理工大学公路工程省部共建教育部重点实验室开放基金资助项目(kfj080102)作者简介:沈文(1968-),男,长沙理工大学副教授
7、,博士.第3期沈文,等:基于车均延误最小的Q学习交通信号控制方法91所有进入交叉口车辆的等待时间,利用神经网络2)基于感知状态s,智能体从可选配时方案[3]来控制信号灯.加拿大学者Abdulhai以运行时集中选取一个方案,其中:从此方案变化到另一方间最优化为目标,基于车辆排队长度,应用了Q学案则为一动作a.习对单个独立交叉口进行控制.荷兰学者Wier2[4]ing以所有车辆出、入城市所通过的信号灯累计等待时间最小为目标,建立了基于车辆的价值函数,将Q学习应用于交通信号控制领域,使单节点延误最小和车辆选择最优路径进行了优化结合.但是,
8、他们均未对Q学习算法在交通控制中应用的原理和步骤进行详细阐述,而是通过仿真验证图1加强学习中智能体-环境相互作用示意其效果,因此笔者对其结果仍存质疑.卢守峰等Fig.1Agent2environmentinteraction[5]人以