欢迎来到天天文库
浏览记录
ID:33553649
大小:11.40 MB
页数:132页
时间:2019-02-27
《基于交互式动态影响图的多agent序贯决策问题求解》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据厦门大学学位论文原创性声明本人呈交的学位论文是本人在导师指导下,独立完成的研究成果。本人在论文写作中参考其他个人或集体己经发表的研究成果,均在文中以适当方式明确标明,并符合法律规范和《厦门大学研究生学术活动规范(试行)》。另外,该学位论文为()课题(组)的研究成果,获得()课题(组)经费或实验室的资助,在()实验室完成。(请在以上括号内填写课题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特别声明。)声明人(签名):、司睁、wI%年]月婵日万方数据IIil111IIIIlUlIIIIIILIIIIlllIIIII厦门大学学位论文著作权使用声明Y27312
2、—13本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》等规定保留和使用此学位论文,并向主管部门或其指定机构送交学位论文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。本学位论文属于:()1.经厦门大学保密委员会审查核定的保密学位论文,于年月日解密,解密后适用上述授权。()2.不保密,适用上述授权。(请在以上相应括号内打“√”或填上相应内容。保密学位论文应是已经厦门大学保密委员会审定过
3、的学位论文,未经厦门大学保密委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论文,均适用上述授权。)声明人(签名).、习。玩p2II乙年-7月L阳万方数据摘要不确定性环境的决策和规划是人工智能领域研究的基本问题之一。交互式动态影响图(InteractiveDynamicInfluenceDiagrams,I-DIDs)直观地表示了多Agent决策的基本要素,包括决策、不确定性、目标以及Agent之间如何相互影响,成为求解多Agent决策的新工具。I-DIDs模型涵盖了多Agent合作,中立或竞争的问题。I-DIDs模型求解受信度表示的复杂性和策略空间
4、的复杂性两个高复杂度问题的困扰,只能求解很小规模的问题。为了求解问题的需要,更多情况是为I-DIDs设计一些切实可行的近似求解算法。论文首先为一般的I-DIDs问题设计高效的近似算法。(1)针对I-DIDs精确求解的困难,提出了基于相对熵的区别模型更新(DiscrimativeModelUpdate,DMU)改进算法。该近似算法比DMU算法更快的识别行为等价模型,迅速压缩行为等价模型,避免模型空间随决策周期的增加指数倍增长,有效的节省了内存空间,提高了求解效率。实验结果印证了基于相对熵的近似算法在多Agent求解上的诸多优势。(2)提出了基于N步前瞻搜索的近似行为等价算法
5、。该算法改变了以往算法需要事先生成完整策略树,然后比较行为等价模型的做法。该算法将策略生成问题建模为选择动态决策网络的部分解的问题,并在此基础上提出了求解I-DIDs的快速近似算法。在实验结果中,N步前瞻算法在运行时间上比之前的算法更快,能够对大规模决策问题进行近似最优的求解。在以上工作基础上,分别对多Agent合作与竞争两种环境下,I-DIDs模型求解展开详细探讨。在合作的多Agent环境下,通信是减少环境的不确定性,提高决策质量的重要技术手段,将通信行为引入I-DIDs模型既是对I-DIDs的发展,也使得I-DIDs成为解决多Agent合作决策问题的新工具。本文针对当
6、前COM.IDIDs仅适合单向通信(告诉或者查询类型)这一局限,采用同步类型通信方式,构建了双向通信的COM.IDIDs模型。该模型能直观的表示通信行为与其它决策变量之间的关系。在算法求解过程中,将I-DIDs的一些精确算法进一步拓展应用到COM.IDIDs模型的求解工作中,并结合通信的期望值设计COM.IDIDs的求解算法,从而提万方数据基于交互式动态影响图的多Agent序贯决策问题求解高了COM.IDIDs的求解效率。目前I-DIDs和COM.IDIDs的所有算法及其验证都是假设其他Agent的真实模型包含于被考虑的候选模型空间。然而在实际问题中,特别是竞争环境,由于
7、不愿意共享信息,以及信息的缺乏,不能保证其他Agent的真实模型存在于被考虑的模型空间中,导致求解质量下降,因此探索和了解其他Agent的真实模型对提高I-DIDs的求解质量有重要的作用,这类问题也被称为对手建模问题。本文应用I-DIDs作为一种新的对手建模语言,直观描述和刻画了对手模型的变化。由于贝叶斯学习方法在识别真实模型存在的一些不足之处,本文提出了基于互信息识别对手模型的方法,当其他Agent的真实模型不在模型空间的情况,该算法能够识别一个与真实模型相关的模型。关键词:多Agent系统;对手建模;影响图;交互式动态影响
此文档下载收益归作者所有