欢迎来到天天文库
浏览记录
ID:25097050
大小:65.50 KB
页数:12页
时间:2018-11-18
《基于博弈学习的多agent城市交通协调控制》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于博弈学习的多Agent城市交通协调控制基于博弈学习的多Agent城市交通协调控制引言 随着经济的高速发展,城市交通拥挤现象日益严重,如何有效地解决城市交通问题显得愈来愈突出,它直接影响城市经济的发展和居民生活的质量。解决交通拥堵问题的主要方法是通过建立交通流的数学模型,运用运筹学和控制理论来控制和优化整个交通系统,但由于交通系统的复杂性、交通流模型的局限性等因素,控制优化的效果并不理想。因此,随着智能控制的快速发展,一些先进的控制理论和方法,特别是智能控制的方法开始应用于城市交通控制[1-3]。城市交通中的每个出行
2、者可以建模为一个本文由.L.收集整理Agent,每个Agent的决策要受到其他Agent决策的影响,博弈论是描述这种相互影响的决策行为的最佳工具,因此将博弈论与多Agent结合应用于交通协调控制已经成为城市交通研究的热点[4-5]。周晶等[6]对公交网络系统的经营博弈问题进行了研究分析,以公交车车费作为经营者的决策变量,建立了经营者之间广义Nash均衡博弈模型,并将之转化成一个拟变分不等式问题再进行求解;郑长江等[7]对城市中无信号控制路段运用博弈论进行了分析;李静等[8]运用博弈论的概念与方法,剖析人们对公共道路和公交
3、客源的利用,研究公交运营规模的相互影响,博弈结果证明了对公交运营进行宏观协调的必要性和重要性;黄园高等[9]对N个人合作博弈的Nash及演化均衡策略进行分析,通过实例运用生物动态复制理论验证演化均衡策略的有效性。Paissan等[10]主要分析了在十字路口发生交互的出行者采用不同策略下的不同支付成本,通过动态模仿受教育水平高的出行者会采取合作行为,大大减缓了交通路口堵塞的可能,指出了对出行者进行教育的必要性。不论是智能控制还是结合博弈方法,都是在完全理性人假设的基础上,把所有的出行者都归结为一类进行研究(忽视了个体出行者
4、之间的差异性),而事实上个体之间的差异是存在的,这也是在协调过程中必须考虑的问题。 为了处理个体之间的差异,首先介绍博弈学习理论的思想,在此基础上提出一种路口出行者之间的多Agent博弈学习协调方法,通过实例分析与仿真实验,证明该方法是可行的。 1博弈学习 定理[11-12]每个有限策略博弈,在连续的概率空间上,总存在混合纳什均衡。 博弈学习理论(theoryoflearningingames)是描述具有目标的有限理性参与者,如何通过逐步的调整策略来达到某一均衡点的。博弈学习是通过博弈学习主体的策略空间S*t来影
5、射利益函数U*t+1的过程,通过学习(Learning),改变学习值Learn(s,a),得到新的最佳Nash均衡值,即函数U*t+1=f(S*t),满足U*t+1∈BD*t,t≥t0,BD*t表示参与主体学习后的最佳均衡点[13-14]。 假定博弈参与者可以选择两种行为方式合作(c)和对抗(d),ri表示选择行为i(i=c,d)参与者在群体中的比例,N0i≥1群体中选择行为i的初始人数,Pc(rtc,rtd)表示在t+1时刻选择行为c的概率,Nti表示到t时刻选择行为i的人数,Nt表示t时刻群体
6、总的人数,则rti=Nti/Nt表示t时刻选择行为i的比例,rt+1i=(Nt+1i)/(Nt+1)表示t+1时刻选择行为i的比例,因此t+1时刻选择行为i的群体的比例的期望为E(rt+1i
7、rti)=rti+(1/Nt+1)*(Pti-rti),记向量rtc=(rtc,rtd),若r*=(r*c,r*d)是一个稳定的均衡点。则可以构造如下一个动态的博弈学习过程。 1)初始化,给定N0c和N0d的值以及利益函数Uc(r)和Ud(r)的表达式; 2)根据t时刻的情况,通过一定的数学方法计算Pc(rtc,rtd)及Pd(
8、rtc,rtd),转3); 3)根据E(rt+1i
9、rti)的表达式进行迭代,通过学习值Learn(s,a)的更新,预计可能出现的结果,根据利益函数U*t+1进行调整rti,转4); 4)判断,给定任意小正数ε,若
10、rtc-r*c
11、<ε且
12、rtd-r*d
13、<ε,结束;否则转2)。 通过上面的描述可以看出,博弈学习的主要特征如下: 1)与传统理论中完全理性人的假设不同,在博弈学习理论中,参与者是有限理性的或者自私的。受参与者的偏好、知识水平、所处的环境条件
14、等各种因素的影响,参与者的认知、学习或推断能力是有限制的,即策略空间S*t是有条件限制的。 2)博弈学习理论针对的是一个动态变化过程。在每个时间段,参与者都根据自己所获得的信息,根据经验和自己的利益不断学习调整其策略和学习值Learn(s,a),即:U*t+1=f(S*t)。一般,参与者所收集的信息为:自己的行动历
此文档下载收益归作者所有