欢迎来到天天文库
浏览记录
ID:20884722
大小:9.84 MB
页数:61页
时间:2018-10-16
《基于云计算的海量数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、高阳教授,博导多智能体强化学习中的博弈和近似均衡南京大学计算机软件新技术国家重点实验室合作者:胡裕靖(南京大学/阿里研究院),安波(南洋理工大学)2018年8月24日关于我1997-2000,南京大学攻读博士学位博士论文题目:多agent强化学习研究目前任:中国人工智能学会理事中国机器学习专委会副主任中国粒计算与知识发现专委会副主任中国计算机学会人工智能与模式识别专委会常委江苏省人工智能学会副理事长近似博弈的均衡迁移报告提纲大数据背景下的多智能体决策非共享支付矩阵的多智能体博弈延迟反馈下的强化学习稀疏交互下的知识迁移和博弈约简多智能体学习
2、中的博弈和近似均衡大数据背景下的多智能体决策152016年度最大的科技新闻之一AlphaGoVS李世石AlphaGoVS柯杰深度学习、强化学习、蒙特卡罗树搜索6大数据特点和关键技术表示技术学习技术推理技术面向大数据的高效知识表示面向大数据的在线学习技术面向大数据的动态推理技术关键技术存在问题大数据的4V特征海量(Volume)、快速多变(Velocity)、多样性(Variety)、不精准性(Veracity)适应大数据特征的人工智能技术博弈推理技术7大数据环境下面向多个行为实体复杂决策的博弈推理技术从2015年上证指数周K线中看各方博弈
3、空方:要跌政府、多方:跌够了空方:还没够多方:再涨政府:该跌一跌政府:捣乱的统统抓起来!政府:人民币国际化、中小企业发展、经济转型、亚投行,涨88博弈推理技术已有推理技术基于逻辑的演绎推理方法适用于小规模问题结合统计的归纳推理方法适用于大数据场景面向大数据复杂决策的动态推理技术多行为智能体的交互[Battista,SMC011]贝叶斯博弈、Stackelberg博弈[Bruckner,KDD2011]垃圾邮件发送者邮件过滤系统发送邮件修改邮件特征过滤未过滤继续发送重新识别…………99大规模博弈推理存在问题和研究思路大规模博弈结构的归纳推理
4、大规模博弈的均衡计算博弈模型约简蒙特卡罗采样和博弈模型学习博弈均衡迁移先验知识利用结构均衡多智能体学习中的博弈和近似均衡延迟反馈下的强化学习211网络广告中的延迟反馈排序∝点击率*竞价…?延时获得Reward(真实点击率)投放广告的商家12在线学习范型LH即时获得正确的类标/奖赏τ时刻后,获得正确的类标/奖赏延迟反馈学习器从X集合中得到输入样本x;学习器输出样本的预测标记;τ时刻后,获得样本的正确标记。如果反馈不是标记呢?13强化学习问题延迟反馈(环境)交互顺序决策EnvironmentactionstaterewardRLAgent具体
5、事例抽象模型强化学习的本质:奖惩和试错(TrialandError)马尔科夫决策过程(MarkovDecisionProcess)状态集合:动作集合:奖赏函数:以及状态转移函数:14强化学习范型延迟反馈(环境)交互顺序决策EnvironmentactionstaterewardRLAgents0s1s2s3aaa15交互学习VS概念学习概念学习给定正例/反例,学习目标概念交互学习通过交互学习一个目标系统(或外部环境)存在若干个”状态”学习算法/动作会影响”状态”的分布潜在的Exploration和Exploitation折衷16交互学习的
6、挑战不确定性环境、动作、反馈、模型学习的目标概念决策最大化长期奖赏MarkovDecisionProcess环境动作状态奖赏学习系统17交互学习的要素18强化学习算法算法构造思路根据先验得到初始认知(值函数)根据认知选择动作(伴随一定的随机性)获得经验根据反馈,修改认知根据延迟的反馈,回退修改历史认知19多智能体学习范型多智能体博弈延迟反馈环境交互顺序决策MichaelWooldridgeUniversityofLiverpoolNickJenningsUniversityofSouthampton20One-ShotGame2017年1
7、月31日,CMUAILibratus在匹兹堡的Rivers赌场,战胜四位德州扑克顶尖选手21Nash均衡经典的博弈均衡解概念:纳什均衡囚徒困境博弈Nash均衡Pareto优个体理性与集体理性相矛盾的本质22马尔科夫博弈马尔科夫博弈(MarkovGame)Agent集合:状态集合:联合动作集合:奖赏函数:状态转移函数:学习方法和思路单Agent学习(假设其他agent不存在)多Agent联合学习(集中式思想)对抗学习基于博弈均衡的学习S1S2S323[Lucian,TSMC-C2008]LucianBuşoniu,RobertBabuška
8、,BartDeSchutter,AComprehensiveSurveyofMulti-AgentReinforcementLearning,IEEETransactionsonSystem,
此文档下载收益归作者所有