正则化快速最小二乘时域差分算法的研究

正则化快速最小二乘时域差分算法的研究

ID:35185018

大小:6.35 MB

页数:74页

时间:2019-03-21

正则化快速最小二乘时域差分算法的研究_第1页
正则化快速最小二乘时域差分算法的研究_第2页
正则化快速最小二乘时域差分算法的研究_第3页
正则化快速最小二乘时域差分算法的研究_第4页
正则化快速最小二乘时域差分算法的研究_第5页
资源描述:

《正则化快速最小二乘时域差分算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、,'—I?'??.'?’-'--'"一"文'.'...,V-f/?'..?..三-.巧一二■?-\.這V巧齐.:-兵汾;:-—-.?、?:气'再,丫--?'?/_:'乂.1\;錢j单位代码:0010‘、.;讀参学号邮顔J,;:;:>^:主夫聲::握.:^^《化今苗窜::专业学位羣苗硕±研究生学位论文’、l二題目II巧Kil長產睾》)珠武^4若言.?-.?..-,.;毛乂

2、-乂,:?备―篡違謗护-^严非一’-??;.打.?\,巧P替专业捉./.生寺於屯一-W..萬\:襄研究―如节.一、'、-心飞.:r巧带'衣容背;巧产吉.%指导教师寺:苗晏.;'.-‘,一、- ̄V'V企业导师g聲巧—巧襄’'-':'..>-^:卢-j^去难球轉’祖儀巧'—'^一:,—逼产媒於苗片.-’---,《■-、.:-.;.二巧、曰期:l〇!b年石月2曰.'..'.北京化工大学学位论

3、文原创性声明,本人郑重声明;所呈交的学位论文,是本人在导师的指导下独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中W明确方式标明。本人完全意识到本声明的法律结果由本人承担。瓜0。告‘1作者签名:东日期:关于论文使用巧巧的说明学位论文作者完全了解北京化工大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京化工大学。学校有

4、权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许学位论文被査阅和借阅;学校可W公布学位论文的全部或部分内容、缩印或其它复制手段保存、汇编,可允许采用影印学位论文。□论文暂不公开(或保密)注释(或;本学位论文属于暂不公开),在年解密后适用本授权书。保密范围__'s/非暂不公开(或保密)论文注释:本学位论文不属于暂不公开(或保密)范围,适用本授权书。。作者签名^直日期:么化:兮0(6-导师签名:^62:日期学位论文巧巧集中图分类号TP273学科分类

5、号510.8010论文编号1001020160272密级公开学位授予单位代10010学位授予单位名称北京化工大学苗作者姓名李论通学号2013210272获学位专业名称控制工程获学位专业代码085210国家自然科学基金项巧題来源?研究方向强化学习0论文題目正则化快速巧小二乘时域差分算法的研究"7^强化学习.策略评价,正则化,巧量式最小二乘时域差分学习,极关^词限学习机20--论文答辩日巧160526?论文类型基

6、础研究学化论文评两义咎辩委员会情巧姓名职称工作单位学科专长指导教师李大字教授北京化工大学先进控制评巧人I巧其兵教授北京化工大学先进控制北发评阅人2马伟芳教放环境工程评阅人3评巧人4諸委员会主巧王晶m北京化工大学与巧?诊巧答辩委员1巧其兵教巧北京化工大学先进控制答辩委员2王友清教授北京化工大学迭代学习控制答辩委员3化贝克副教授北京化工大学过捏智能仿真答辩委员4黄冉副教投北京化工大学自适拉控制答辩

7、委员5一::123发巧究4注.论文类型.基础研究.应用研究.开.其它二。.中图分类号在《中国困书资料分类法》奎巧-玉.学科分类号在中华人民共和国国家标々(姐八137459)?学科分类与代码》中奎询。四四位化成.论文巧号由单位代码和年份及学号的后。5£正则化快巧最小二乘时域差分II法的研究摘要策略评价与策略改进是强化学习中两大子问题,其中,策略评价问题也称为学习预测问题,为策略改迸W求得最优策略提供基础。在众多策略评价算法之中,时域差分学习是强化学习中应用最普

8、遍的方法,同时也为求解学习控制问题的方法提供强有力的基础。正则化是一种能够将先验知识加入目标函数之中,克服值函数逼近器过拟合样本的有效方法。该方法通过对基函数进行选择,使得值函数逼近器产生稀疏解。因此,逼近器的结构得到简化、逼近器的泛化能为得到提升一种能够在不影响样本利用率的前。增量式技术是提下,显著降低策略评价算法的算法复杂度的方法。目前这两种方法在经典的时域差分算法中得到了应用一二

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。