人工智能：基于Q学习和行为树的CGF空战行为决策

ID：5284423

大小：1001.32 KB

页数：4页

时间：2017-12-07

资源描述：

《人工智能：基于Q学习和行为树的CGF空战行为决策》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、计算机与现代化２０１７年第５期ＪＩＳＵＡＮＪＩＹＵＸＩＡＮＤＡＩＨＵＡ总第２６１期文章编号：１００６-２４７５（２０１７）０５-００３７-０３基于Ｑ-学习和行为树的ＣＧＦ空战行为决策方君，闫文君，邓向阳，凌青（海军航空工程学院信息融合研究所，山东烟台２６４００１）摘要：空战行为决策的智能性是学术界关注的重要问题之一。提出一种基于Ｑ-学习和行为树的ＣＧＦ空战行为决策方法。通过构建ＣＧＦ空战行为树模型，实现ＣＧＦ智能行为；通过在行为树上的Ｑ-学习，使ＣＧＦ具有不断进化的能力。仿真结果表明，该算法在与传统算法对抗中，性能优势明显且学习能力较强。关键词：空战决策；人工智能；行为树；Ｑ-学习中图分类号

2、：ＴＰ３０１文献标识码：Ａdoi：１０．３９６９／ｊ．ｉｓｓｎ．１００６-２４７５．２０１７．０５．００７AirBatStrategiesofCGFBasedonQ-learningandBehaviorTreeＦＡＮＧＪｕｎ，ＹＡＮＷｅｎ-ｊｕｎ，ＤＥＮＧＸｉａｎｇ-ｙａｎｇ，ＬＩＮＧＱｉｎｇ（ＩｎｓｔｉｔｕｔｅｏｆＩｎｆｏｒｍａｔｉｏｎＦｕｓｉｏｎ，ＮａｖａｌＡｅｒｏｎａｕｔｉｃａｌａｎｄＡｓｔｒｏｎａｕｔｉｃａｌＵｎｉｖｅｒｓｉｔｙ，Ｙａｎｔａｉ２６４００１，Ｃｈｉｎａ）Abstract：Ｔｈｅｉｎｔｅｌｌｉｇｅｎｃｅｏｆａｉｒｂａｔｓｔｒａｔｅｇｉｅｓｉｓｏｎｅｏｆｔｈｅｉｍｐｏｒｔ

3、ａｎｔｐｒｏｂｌｅｍｓ．ＡｎｅｗｍｅｔｈｏｄｆｏｒａｉｒｂａｔｓｔｒａｔｅｇｉｅｓｏｆＣＧＦｗａｓｐｒｏｐｏｓｅｄｂａｓｅｄｏｎＱ-ｌｅａｒｎｉｎｇａｎｄｂｅｈａｖｉｏｒｔｒｅｅ．ＴｈｅｉｎｔｅｌｌｉｇｅｎｃｅｏｆＣＧＦｗａｓｆｏｒｍｅｄｔｈｒｏｕｇｈｅｓｔａｂｌｉｓｈｉｎｇｂｅｈａｖｉｏｒｔｒｅｅ．ＡｎｄｔｈｒｏｕｇｈＱ-ｌｅａｒｎｉｎｇｏｎｂｅｈａｖｉｏｒｔｒｅｅ，ｔｈｅｅｖｏｌｕｔｉｏｎａｒｙａｂｉｌｉｔｙｗａｓｇａｉｎｅｄｆｏｒＣＧＦ．Ｓｉｍｕｌａｔｉｏｎｓｈｏｗｓｔｈａｔｔｈｅｍｅｔｈｏｄｐｅｒｆｏｒｍｓｂｅｔ-ｔｅｒａｎｄｗｉｔｈａｓｔｒｏｎｇｅｒｌｅａｒｎｉｎｇａｂｉｌｉｔｙｗ

4、ｈｅｎｉｔｃｏｍｂａｔｓｗｉｔｈｔｒａｄｉｔｉｏｎａｌａｌｇｏｒｉｔｈｍ．Keywords：ａｉｒｂａｔｓｔｒａｔｅｇｉｅｓ；ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ；ｂｅｈａｖｉｏｒｔｒｅｅ；Ｑ-ｌｅａｒｎｉｎｇＣＧＦ空战行为决策模型，通过构建行为树，使ＣＧＦ飞0引言机具有一定的智能行为，基于Ｑ值表在初始化阶段的飞行模拟器研制工作中，ＣＧＦ的空战决策一直前期学习和训练中不断强化学习，提高ＣＧＦ模型的智是备受关注的重要问题之一，它影响着模拟器仿真的能性和ＣＧＦ空战能力，通过动态贪婪策略使得Ｑ学习真实性，也影响着飞行员训练效果。针对ＣＧＦ空战算法收敛到最优解，具有很高的工程应用价值。［１］

5、决策问题的研究一直是各国研究的重点。传统的［２］［３］1行为树设置空战决策方法涉及神经网络、遗传算法等，均取得了不错的效果。理想的ＣＧＦ空战决策算法应该具1．1行为树有２个特点：一是智能性，二是学习性。传统的ＣＧＦ行为树是有限状态机和层次有限状态机的改进，空战决策模型在智能性上研究较多，模型自主对抗能［５］它在形式上分层呈树形。行为树中节点类型分为力较强，但不能在训练时根据胜负结果自动更新模型４种：顺序节点、选择节点、条件节点、执行节点。数据，不断学习。１）顺序节点（Ｓｅｑｕｅｎｃｅ）。顺序执行所属子节点；［４］Ｒ．Ｄｅｙ等将Ｑ-学习和行为树相结合研究了强２）选择节点（Ｓｅｌｅｃｔｏｒ）。根

6、据规则选择其中一个化学习对于行为树的影响，为本文研究打下基础，但子节点执行；应用到ＣＧＦ空战模型中，还有以下问题：３）条件节点（Ｃｏｎｄｉｔｉｏｎ）。判断条件是否成立；１）基于行为树的空战模型建立问题；４）执行节点（Ａｃｔｉｏｎ）。执行行为。２）利用Ｑ值表深入学习问题；行为树一般结构如图１所示。其中“？”为选择３）Ｑ学习算法易收敛到局部最优解的问题。节点，Ｓ为顺序节点，Ａ为执行节点，Ｃ为条件节点。本文提出一种基于Ｑ-学习和行为树相结合的收稿日期：２０１７-０１-２０基金项目：国家自然科学基金重大研究计划（９１５３８２０１）；泰山学者专项基金资助项目（ｔｓ２０１５１１０２０）作者简万方数据介：

7、方君（１９７９-），男，安徽怀宁人，海军航空工程学院信息融合研究所讲师，硕士，研究方向：作战仿真，飞行仿真。３８计算机与现代化２０１７年第５期2基于Q-学习的学习过程2．1Q-学习图１一般行为树设置1．2CGF状态空间考虑空战需要，ＣＧＦ状态空间设置为是否接敌、图３一个与环境交互的Ａｇｅｎｔ是否面对敌机、弹药数量、健康状态４个环境和自身状强化学习能够使Ａｇｅｎｔ感知周围环境，通过学习态指标。其中弹药数量和健康

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

人工智能：基于Q学习和行为树的CGF空战行为决策

人工智能：基于Q学习和行为树的CGF空战行为决策

相关文章

相关标签