基于Q学习的模糊神经网络控制器

基于Q学习的模糊神经网络控制器

ID:36741882

大小:283.06 KB

页数:7页

时间:2019-05-14

基于Q学习的模糊神经网络控制器_第1页
基于Q学习的模糊神经网络控制器_第2页
基于Q学习的模糊神经网络控制器_第3页
基于Q学习的模糊神经网络控制器_第4页
基于Q学习的模糊神经网络控制器_第5页
资源描述:

《基于Q学习的模糊神经网络控制器》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于!"学习的模糊神经网络控制器陈忠泽林良明颜国正(上海交通大学电子信息学院+!"研究所,上海!"""/")摘要神经模糊系统在机器人的智能控制中具有巨大的应用潜力,但已有的系统构造方法几乎都面临着样本资源匮乏这一巨大困难。为克服传统系统构造方法可能因样本获取困难而引起的“维数灾难”等问题,该文在模糊神经网络中引入了-.学习机制,提出了一种基于-.学习的模糊神经网络模型,从而赋予神经模糊系统自学习能力。文章最后给出了其在菅野模糊小车控制中的仿真结果。实验表明,在神经模糊系统中融入智能学习机制-.学习是行之有效的;它可以被用来实现机器人智能行为的自学习。值得一提的是,该文的仿真实验在真实系统上同样

2、是容易实现的,只要系统能提供作为评价信号的传感信息即可。关键词-.学习神经网络模糊系统文章编号$""!.+//$.(!""!)$%.""%/."(文献标识码A中图分类号CD!E/#!(#!"$%&’()(*+&,%-.%/’&$0/11234(5’4$$%’36%(764(*1%8)(8)&(*9)(*:&(;/416%(*(F5#+!":;G,H5II1<154JI17965327K;3LM34568;9253,=N;3;>16>65>5K1K;35Q1I9N611.I;R161L>;6;

3、II1I4STTR23416137185L1I-:UFFVM,WN27N2KK96S79S61LGR-.I1;6323<819N5L#P3L16-.I1;6323<817N;32K8,;31S65.4STTRKRK9187;3G1K96S79S61LW29N5S996;23>;99163K,WN27NN;KG113>61Q13923;>16;IK554416K;L2<29;I1X>16281399N;918SI;923<9N1753965I549N1=PYJFZ4S

4、TTR7;6W29N9N2K85L1I#A7756L23<959N11X>162813961KSI9,9N1;8;I<;8;9253549N1>65>5K1L85L1I;3L9N1-.I1;6323<817N;32K8,WN27N8;[1K9N14STTR23416137185L1IN;KK1I4.I1;6323<;G2I29R,2KKS771KK4SI#A3L297;3;IK5G1K28>IR;>>I21L959N12391II2<139753965I54;61;I65G59KRK918#>%2?4’-,:-.I1;6323<,F1S6;I319W56[,VSTTRKRK918$习(0123

5、456718139:1;6323<)&!’,它是状态至动作的映射的学习引言把模糊技术和神经网络技术结合是当前智能控制领域的过程。在-.学习过程中仅仅需要评价信号,而非教师信号。评一个热点。模糊系统实际上是一个函数逼近器,它有在一个紧价信号从环境反馈中得到,系统根据它对当前作用的优劣做出密基内以任一精度一致逼近实连续函数的能力&$’,它同时是一评价,这样通过“奖”、“罚”等评价方式对对应状态成功的动作种并行系统,模糊系统的推理结果由它的各规则的作用以一定不断得到强化,而不需要象有监督学习那样给出正确答案;训的强度比例线性叠加而得到;神经网络也是函数逼近器,它的练完成后,当网络遇到相同的状态时,就

6、可以重复已得到强化计算机制本质上是并行计算,神经网络的参数又可以通过学习的成功的动作。得到。而神经模糊系统将神经网络和模糊系统二者成功地融为一体,使二者相得益彰。!-.学习算法的原理在用神经网络构造模糊系统时所要解决的问题是采取什-.学习算法&/’中包含三个不同的功能函数:三元组(状态、么策略训练神经网络使其结构和参数(分别对应于模糊规则及动作、对应信度值!)记忆函数;动作修正函数;信度值!刷新模糊变量参数)得到优化&(,)*+’。通常在构造模糊神经网络时用有函数。三元组记忆函数根据当前状态选择一个最有可能得到监督学习策略&(’。有监督学习要求预先给出足够多的学习样本,“奖赏”即信度值最大的动

7、作,动作修正函数根据该动作的当前然而获取足够且精确的样本可以说是学习问题的根本困难&,’:信度值对它做适当的修改。系统以修正后的动作作用于环境,学习样本有时难以得到或者要付出巨大的代价;当输入空间的并从环境获取对该作用的评价信号。信度刷新函数根据评价信维数增高时,样本量的问题更加突出,甚至可能导致所谓的“维号刷新(修改)当前信度值。-.学习算法的描述如下:数灾难”。另外一些学习算法则不能有效支持在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。