基于知识的agent强化学习算法分析与研究 (2)

基于知识的agent强化学习算法分析与研究 (2)

ID:33549407

大小:255.17 KB

页数:4页

时间:2019-02-27

基于知识的agent强化学习算法分析与研究 (2)_第1页
基于知识的agent强化学习算法分析与研究 (2)_第2页
基于知识的agent强化学习算法分析与研究 (2)_第3页
基于知识的agent强化学习算法分析与研究 (2)_第4页
资源描述:

《基于知识的agent强化学习算法分析与研究 (2)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据第19卷第ll期电子设计工程2011年6月V01.19No.11ElectronicDesignEngineeringJun.2011基矛知识的Agent强彳匕学习算法分析与研究殷锋社(陕西工业职业技术学院陕西成阳712000)摘要:强化学习具有与环境交互的优势,笔者提出的基于知识的Q一学习算法(KBQL)就是利用Q一学习算法的这个特点,利用Agent的先验知识来缩小Agent学习的状态空阍,以加速强化学习的收敛性,同时采用Agent的学习机制克服其知识的不精确性。从而提高学习算法的鲁棒性和适应性。关键词:强化学习;KBQL;Agent;

2、鲁棒性;适应性中图分类号:’rP3-ol文献标识码:A文章编号:1674.6236(2011)ll-0115-03AnalysisandresearchofAgentreinforcementlearningalgorithmbasedonknowledgeYINFeng-she(ShanxiPolytechnicInstitute,Xianyang712000,China)Abstract:Reinforcementlearninghastheadvantageofinteracting而tlItheenvironment.thispaperp

3、resentsaknowledge-basedQ-learningalgorithm(KBQL)Qisalearningalgorithmusingthisfeature,the啪ofAgentpriorknowledgeton枷wAgentlearningstatespace,inordertoacceleratethereinforcementlearningConvergence,while岫ingthelearningmechanismAgentovercomeinaccuracyoftheirknowledge,therebyenhan

4、cingthelearningalgorithmrobustnessandadaptability.Keywords:reinforcementlearning;KBQL;Agnet;robustness;adaptability学习是Agent适应复杂动态不确定环境的一项重要技能,在现有的各种学习算法中。强化学习是一种能与环境进行交互的、无需模型的在线学习算法,具有处理动态不确定性环境的优势。因而使其成为机器学习研究中的一个重要分支。传统的强化学习算法研究没有考虑Agent的先验知识.尽管在形式上提供了一个统一的算法框架.但在实际应用中,这些没

5、有启发知识的强化学习算法收敛速度都相当慢。另外。标准强化学习算法的收敛性是建立在可以任意遍历状态空间状态的前提下,但对于真实的物理环境(如机器人)。这种方式是不现实的。而且在实际应用中。Agent总可以获取各种形式的启发知识,因此将知识融入强化学习系统中,不仅可以改善强化学习算法的收敛性。而且还充分利用系统的资源(如专家知识等)。1强化学习强化学习是学习如何把状态映射到动作使奖赏值达到最大的学习算法,Agent通过在环境中不断地感知和动作,来学习选择最优的动作以实现目标任务.强化学习坚实的理论基础和诱人的应用前景正逐渐受到各研究领域学者的广泛重视

6、.不仅是研究智能学习的理论工具.同时又是实际应用的有效手段。下面对强化学习的基本原理及常用的基本算法进行介绍。1.1强化学习的基本原理111强化学习系统的基本框图如图l所示。强化学习的基本原理是:如果Agent的某个动作导致环境正的奖赏(强化信号),那么Agent以后产生这个动作的趋势便会加强;反之A—gent产生这个动作的趋势减弱。m譬一≯∞图l强化学习基本框图Fig.1Basicblockdiagram0fthereinforcementlearning一般地。强化学习问题可以看成是一个Markov决策过程(MarkovDeeisionPro

7、ee88es,MDP),其定义如下:MDP=(1)其中S是有限的离散状态空间。A是有限的离散动作空间;R是回报函数;P是状态转移函数,因此在已知状态转移概率函数P和回报函数R的环境模型知识下.可以采用动态规划技术求解最优策略。而强化学习着重研究在P函数和R函数未知的情况下。Agent如何获得最优策略翻。收稿日期:201l—03一18稿件编号:201103101作者简介:殷锋社(19r7扣)。男.陕西乾县人。硕士研究生,副教授。研究方向:个性化仿真系统研究。-115-万方数据《电子设计工程)2011年第11期1.2强化学习的基本算

8、法目前.强化学习主要有两大类算法:一类是值函数估计法,这是强化学习领域研究最为广泛的方法;另一类是策略空间直接搜索法。如遗传算法、遗传编

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。