人工智能:基于Q学习和行为树的CGF空战行为决策

人工智能:基于Q学习和行为树的CGF空战行为决策

ID:5284423

大小:1001.32 KB

页数:4页

时间:2017-12-07

人工智能:基于Q学习和行为树的CGF空战行为决策_第1页
人工智能:基于Q学习和行为树的CGF空战行为决策_第2页
人工智能:基于Q学习和行为树的CGF空战行为决策_第3页
人工智能:基于Q学习和行为树的CGF空战行为决策_第4页
资源描述:

《人工智能:基于Q学习和行为树的CGF空战行为决策》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、计算机与现代化2017年第5期JISUANJIYUXIANDAIHUA总第261期文章编号:1006-2475(2017)05-0037-03基于Q-学习和行为树的CGF空战行为决策方君,闫文君,邓向阳,凌青(海军航空工程学院信息融合研究所,山东烟台264001)摘要:空战行为决策的智能性是学术界关注的重要问题之一。提出一种基于Q-学习和行为树的CGF空战行为决策方法。通过构建CGF空战行为树模型,实现CGF智能行为;通过在行为树上的Q-学习,使CGF具有不断进化的能力。仿真结果表明,该算法在与传统算法对抗中,性能优势明显且学习能力较强。关键词:空战决策;人工智能;行为树;Q-学习中图分类号

2、:TP301文献标识码:Adoi:10.3969/j.issn.1006-2475.2017.05.007AirBatStrategiesofCGFBasedonQ-learningandBehaviorTreeFANGJun,YANWen-jun,DENGXiang-yang,LINGQing(InstituteofInformationFusion,NavalAeronauticalandAstronauticalUniversity,Yantai264001,China)Abstract:Theintelligenceofairbatstrategiesisoneoftheimport

3、antproblems.AnewmethodforairbatstrategiesofCGFwasproposedbasedonQ-learningandbehaviortree.TheintelligenceofCGFwasformedthroughestablishingbehaviortree.AndthroughQ-learningonbehaviortree,theevolutionaryabilitywasgainedforCGF.Simulationshowsthatthemethodperformsbet-terandwithastrongerlearningabilityw

4、henitcombatswithtraditionalalgorithm.Keywords:airbatstrategies;artificialintelligence;behaviortree;Q-learningCGF空战行为决策模型,通过构建行为树,使CGF飞0引言机具有一定的智能行为,基于Q值表在初始化阶段的飞行模拟器研制工作中,CGF的空战决策一直前期学习和训练中不断强化学习,提高CGF模型的智是备受关注的重要问题之一,它影响着模拟器仿真的能性和CGF空战能力,通过动态贪婪策略使得Q学习真实性,也影响着飞行员训练效果。针对CGF空战算法收敛到最优解,具有很高的工程应用价值。[1]

5、决策问题的研究一直是各国研究的重点。传统的[2][3]1行为树设置空战决策方法涉及神经网络、遗传算法等,均取得了不错的效果。理想的CGF空战决策算法应该具1.1行为树有2个特点:一是智能性,二是学习性。传统的CGF行为树是有限状态机和层次有限状态机的改进,空战决策模型在智能性上研究较多,模型自主对抗能[5]它在形式上分层呈树形。行为树中节点类型分为力较强,但不能在训练时根据胜负结果自动更新模型4种:顺序节点、选择节点、条件节点、执行节点。数据,不断学习。1)顺序节点(Sequence)。顺序执行所属子节点;[4]R.Dey等将Q-学习和行为树相结合研究了强2)选择节点(Selector)。根

6、据规则选择其中一个化学习对于行为树的影响,为本文研究打下基础,但子节点执行;应用到CGF空战模型中,还有以下问题:3)条件节点(Condition)。判断条件是否成立;1)基于行为树的空战模型建立问题;4)执行节点(Action)。执行行为。2)利用Q值表深入学习问题;行为树一般结构如图1所示。其中“?”为选择3)Q学习算法易收敛到局部最优解的问题。节点,S为顺序节点,A为执行节点,C为条件节点。本文提出一种基于Q-学习和行为树相结合的收稿日期:2017-01-20基金项目:国家自然科学基金重大研究计划(91538201);泰山学者专项基金资助项目(ts201511020)作者简万方数据介:

7、方君(1979-),男,安徽怀宁人,海军航空工程学院信息融合研究所讲师,硕士,研究方向:作战仿真,飞行仿真。38计算机与现代化2017年第5期2基于Q-学习的学习过程2.1Q-学习图1一般行为树设置1.2CGF状态空间考虑空战需要,CGF状态空间设置为是否接敌、图3一个与环境交互的Agent是否面对敌机、弹药数量、健康状态4个环境和自身状强化学习能够使Agent感知周围环境,通过学习态指标。其中弹药数量和健康

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。