资源描述:
《基于多智能体的Option自动生成算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第1卷第1期智能系统学报Vol.1№.12006年3月CAAITransactionsonIntelligentSystemsMar.2006基于多智能体的Option自动生成算法沈晶,顾国昌,刘海波(哈尔滨工程大学计算机科学与技术学院,黑龙江哈尔滨150001)摘要:目前分层强化学习中的任务自动分层都是采用基于单智能体的串行学习算法,为解决串行算法学习速度较慢的问题,以Sutton的Option分层强化学习方法为基础框架,提出了一种基于多智能体的Option自动生成算法,该算法由多智能体合作对状态空间进行并行探测并
2、集中应用aiNet实现免疫聚类产生状态子空间,然后并行学习生成各子空间上的内部策略,最终生成Option.以二维有障碍栅格空间内2点间最短路径规划为任务背景给出了算法并进行了仿真实验和分析.结果表明,基于多智能体的Option自动生成算法速度明显快于基于单智能体的算法.关键词:分层强化学习;自动分层;多智能体系统;Option;aiNet中图分类号:TP18文献标识码:A文章编号:167324785(2006)0120084204AlgorithmforautomaticconstructingOptionbased
3、onmulti2agentSHENJing,GUGuo2chang,LIUHai2bo(SchoolofComputerScienceandTechnology,HarbinEngineeringUniversity,Harbin150001,China)Abstract:Incurrenthierarchicalreinforcementlearning,theautomatictaskhierarchiesareconstructedbylowspeedseriallearningalgorithmbasedon
4、single2agent.Amulti2agentbasedalgorithmforconstructingOptionsau2tomaticallywaspresentedforspeedingupthelearningalgorithm.ThealgorithmwasdevelopedonthebasisoftheOptionHRLframeworkproposedbySutton.Firstly,multipleagentscooperatedinparallelexploringthestatespace.T
5、henthestatespacewaspartitionedintoseveralsub2spacesviaimmuneclusteringbasedonaiNet.Next,theagentslearnedthelocalstrategiesofthedifferentsub2spaceconcurrently.Consequently,theOptionswerecon2structed.Thetheoreticalanalysesandexperimentswithshortestpathplanningina
6、two2dimensionalgridspacewithobstaclesshowthatthespeedofmulti2agentbasedalgorithmforautomaticallyconstructingOptionswasobvi2ouslyfasterthanthatofsingle2agentbasedalgorithms.Keywords:hierarchicalreinforcementlearning;automatichierarchy;multi2agentsystem;Option;ai
7、Net[7]分层强化学习(HRL)是克服强化学习(RL)维根据状态出现的频率选择子目标,Menache等通数灾难的有效方法,其代表性的研究成果主要有过最大流—最小割方法确定状态转移图中的瓶颈状[2][3][4][8]Option,HAM和MAXQ方法.其中的层次态,并将其定义为子目标状态,而Mannor则是通结构可以由设计者根据专家知识事先确定,也可以过状态聚类将学习分解成若干阶段.上述分层方法自动生成.由于在复杂环境或者未知环境内学习中,自动分层过程均串行完成.为加快自动分层速时,任务层次结构很难事先确定,因此自动
8、分层方法度,该文提出了一种基于多智能体的Option自动分一直是最近几年的研究热点.现有解决自动分层问层算法,速度上的优越性在仿真实验中得到了验证.题的研究工作多集中在状态空间的子目标发现上,1Option分层强化学习基本原理根据子目标即可对状态和动作进行抽象,以形成分[5]层子任务.典型的研究成果有:Digney将强化信Option分层强化学