资源描述:
《Q学习中基于模糊规则的强化函数设计方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第卷第期模式识别与人工智能年月乙学习中基于模糊规则的强化函数设计方法‘‘赵晓华李振龙陈阳舟荣建‘北京工业大学北京市交通工程重点实验室北京“北京工业大学电子信息与控制工程学院北京摘要学习算法是求解信息不完全马尔可夫决策问题的一种强化学习方法学习中强化信号的设计是影响学,习效果的重要因素本文提出一种基于模糊规则的学习强化信号的设计方法提高强化学习的性能并将该方法应用于单交叉口,根据交通流的变化自适应调整交口信号灯最优控制中叉信号灯的相位切换时间和相位次序通过微观交通仿真软件验证,说,明在解决交通控制问题中使用基于模糊规则的学习的学习效果优于传统学习关键词学习,强化函数,模糊规则,交通信号控制,微
2、观交通仿真软件中图法分类号一一‘,一,一,,,夕夕。少,少夕夕,,,少二夕‘夕,少一一一,,一一收稿一一一一日期修回日期,,,,,、一。作者简介赵晓华女年生副教授博士主要研究方向为智能交通控制理论及应用。,男,年,,,主要研究方向为交通信息与控制陈阳舟,男,,,,李振龙生副教授博士年生教授博士生导师主要研究方向为控制理论,男,,,,主要研究方向为交通信息与控制及应用荣建年生教授博士期赵晓华等学习中基于模糊规则的强化函数设计方法一,,,,化学习的数学模型学习是一种无模型的学习方引言法,通过采样环境学习最优行动策略,而不是学习客强,观对象的模型化学习又称再励学习评价学习是一种重要,、对于有限马氏
3、决策过程可以用一个四元的机器学习方法在智能控制机器人及分析预测,,,,,、组来描述其中是环境状态空间等领域有许多应用强化学习是从动物学习随机逼近、优化控制等理论发展而来的,是一种无导师在线是系统行为动作集合是状态转移函数尸,尸,,“,二‘状态空间的概率分布表征交互式学习技术它提供一种通过奖赏和惩罚对智系统在环境状态任执行动作任后环境状态能系统进行规划的方法强化学习把学习看成一个,又称强迁移到了任的概率是奖赏函数化函一,试探评价的过程强化学习系统感知环境状态并,二,,二,二任执行动,数表示系统在环境状态采取某一行动作用于环境环境执行动作并使状态‘作任后环境状态迁移到二任时所获得的奖,发生变化同
4、时系统给出强化信号奖励或惩罚反,赏值控制的目的就是寻求一个最优控制策略在每,馈给强化学习系统对刚才所做动作进行评价系统,个离散的状态空间使未来每个时间步所获得的奖,根据强化信号和环境当前的状态选择下一动作选,赏的折扣和期望最大即择的原则是使受到正强化的概率增大当然选择的二‘‘,,仁,动作影响立即强化值同时影响下一状态以及最终艺,一强化值,,二其中镇为折扣因子是控制策略可,,以看出强化学习中智能系统是通过环境的集合,奖惩和惩罚反馈指导学习过程的环境提供的强化根据以上对的定义,给定一个策略二,定信,号是对产生动作好坏的一种评价所以强化信号义值为,的选择决定着学习系统的性能好坏是构建强化学,习系统
5、的一个难点川,。,,二‘,艺了争本文提出的在学习算法中,采用模糊规则设,,一,,‘二,二,其中为状态到计强化函数的设计方法能够更全面地评价动作对,’的转移概率于环境的影响从而提高学习性能文中在单交叉口,,,换言之值是在状态执行动作以及后续策信号灯控制系统中针对交通控制的具体控制特征略的奖赏折扣和的期望学习的目的就是在转采用模糊规则设计学习中的强化函数并解决信,移概率和所获的奖赏未知的情况下估计最优策略的号灯优化控制问题仿真结果表明该方法可提高,,值那么系统每一状态所选择的最优策略就是该学习控制效果更好地解决交通控制问题值所对应动作学习的实现方法是按照递归公式进行的困强化学习中的学习,走,在每
6、一时间步观测当前状态根据一定原则选,二、以及及时奖择并执行行为再观测后继状态强,,,一,化学习中智能系统感知环境的当前状态选赏然后根据下式调整值,,走,、走,,走、,走择一个动作执行于环境该动作改变环境的状态并仁从环境中反馈得到一个强化信号奖励或惩罚来评下二二二一二,,“‘〔价智能系统的行为策略强化学习就是通过间接的其中为学习因子证明当学习因子满足,,延迟奖励使智能系统学会优化的控制策略使评价,一定条件时学习算法必定收敛在最优解从递归总和的期望达到最大公式可以看出,影响值的主要因素之一就是,,“,,学习方法是强化学习的主要算法之一它实合理设计其值可以提高系统对动作评际上是马尔可夫判定过程,价
7、的合理性从而改善系统的学习性能,,的一种变化形式也可看作强模式识别与人工智能卷一基于模糊规则的强化函数设计贝,,下尽‘,,一二,,〕,,其中泊用于调整神经元网络权值使误差尽可能学习中学习系统通过环境和动作的不断交,一,小最终将得到最优策略所对应的值图中决策选互从状态行为对中获得强化信息强化信息反映,,择模块主要决定采用哪个动作这里采用贪婪决策学习系统在试探过程中对所选动作的评价该信息,直接影响学习的学习目标合