进化博弈中多代理人强化学习模型_刘伟兵.pdf

进化博弈中多代理人强化学习模型_刘伟兵.pdf

ID:52435583

大小:323.22 KB

页数:6页

时间:2020-03-27

进化博弈中多代理人强化学习模型_刘伟兵.pdf_第1页
进化博弈中多代理人强化学习模型_刘伟兵.pdf_第2页
进化博弈中多代理人强化学习模型_刘伟兵.pdf_第3页
进化博弈中多代理人强化学习模型_刘伟兵.pdf_第4页
进化博弈中多代理人强化学习模型_刘伟兵.pdf_第5页
资源描述:

《进化博弈中多代理人强化学习模型_刘伟兵.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、3期系统工程理论与实践l.29,No第29卷第Vo2(X)3SysteEnring一Thry&PrticeMar.,299年月tnsgineeo‘0(j一:文章绷号100压6788(2009)0302冬06进化博弈中多代理人强化学习模型,‘2,3刘伟兵王先甲(1.武汉大学政治与公共管理学院,武汉43072;2.武汉大学经济与管理学院,武汉43072;3.武汉科技大学冶金工业过,程系统科学实验室武汉43081),,并基摘要将强化学习引入到进化博弈中建立了进化博弈中的多代理人强化学习模型于Q-学习,、给出了算法流程仿真算例的结果表明多代理人强化学习模型能使得博弈人不断学习寻

2、求最优策略.一;;强化学习;Q关徽词博弈论进化博弈学习中24.32;T01.6A圈分类号F2P3文献标志码Multiagentreinforeementlearning-modelinevolutionarygames,,n,an3LIUWei-big认叭NGxi一iaZ1.SchlofPolitiSeidPublieManagement,WllhUniveitlh4372,China;2.E沁onomicsdMage-(ocalenceananrsty,Wan加ananntSehool,W吐hUniverst扒uh4372,China;3.HubeiPriKeyLor

3、atoryofSystemsSe记lurealmeaniWan(X)ovnceabnceforMetaigiPr,uhUniiocienhnology,u43‘x】81,naWanverstyfSceand于BCWhanChi)~,,AbsttInthisPaPerreinforcentlearning15introducedininnarygamesmultiagentreinforracmeevolutce-mentlearning-model15Presented,andthelearningalgorithm15givenbasedonQ一learning.Th

4、eresultsofsilationexPerimentsshthattheltiagentreinforcementlearning-modeleanmakeagentsfindthemuowmu.oPtimalstrategy勿learning一Keyrdsgetheory:evolutionaryge;reinforcementlearning;Qlearningwoamaml引言,,博弈论是研究多人决策问题的理论但又不同于一般的决策论博弈论强调决策主体间策略选择的相互.,,19制约性体现了合作与冲突的对立统一关系20世纪80年代以来尤其是94年诺贝尔经济学奖授予

5、三位,,,博弈论专家以后博弈论取得了飞速发展广泛应用到许多研究领域现在已发展成为经济学的重要组成部分.,,有限理性对传统博弈论中完全理性的前提假设提出了质疑1986年MaynardS而th发表了《进化与博.》的川,,弈理论著作首次提出了进化博弈的思想进化博弈论改变了以往对博弈人的完全理性假设建立在有限理性基础上的进化博弈开辟了博弈论发展的新方向,是博弈论的发展和延伸.进化博弈研究博弈过程中人的行为策略的动态调整和学习过程.进化博弈论不同于传统的博弈论,进化博弈分析的关键是确定博弈人,学习和策略调整的模式如何根据具体情况来构造动态学习模型模拟进化博弈中博弈人的学习是鱼待解

6、决的二一收稿日期200冬n27:57,资助项目国家自然科学基金(60407170530):,,304,:,,,作者简介刘伟兵博士武汉大学政治与公共管理学院讲师主要研究兴趣进化博弈论智能算法;王先甲通信作者武汉大学路伽学者特聘教授,博士生导师,主要研究兴趣:决策分析,博弈论,系统科学与工程.第3期刘伟兵,:等进化博弈中多代理人强化学习模型问题,也是近年来许多学者研究的一个热点问题.o和Thiol等‘歹进化博弈的特性,Ya人考虑到演化算法分12一3];Amir和Now别用遗传算法和蚁群算法对进化博弈中的最优策略选择作了研究ak等人则考虑到进化,博弈中策略转移的特征利用随机过

7、程中的概率转移理论分别采用生灭过程和Moran过程建立了进化博弈4.中策略的动态调整模型1一5}强化学习是一种应用广泛的机器学习算法,能,.处理动态环境中的不确定信息使代理人选择最优策略一,,Q学习算法是由tkins提出的一种新兴强化学习算法l0]不需要对所处的动态环境建模并能在代理人与wa环境的相互作用中在线使用,因而得到广泛应用.Q一学习的这种优良特性非常适合用在不完全信息的博弈中.,一,Litman等人将强化学习应用于两人的零和博弈中并提出了极小极大Q学习算法lv]该算法能成功地用于.一,,两人零和博弈中使代理人选择最优策略极小极大

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。