正则化快速最小二乘时域差分算法的研究

ID：35185018

大小：6.35 MB

页数：74页

时间：2019-03-21

资源描述：

《正则化快速最小二乘时域差分算法的研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、，＇—Ｉ？＇？？．＇？’－＇－－＇＂一＂文＇．＇．．．，Ｖ－ｆ／？＇．．？．．三－．巧一二■？－＼．這Ｖ巧齐．：－兵汾；：－—－．？、？：气＇再，丫－－？＇？／＿：＇乂．１＼；錢ｊ单位代码：００１０‘、．；讀参学号邮顔Ｊ，；：；：＞＾：主夫聲：：握．：＾＾《化今苗窜：：专业学位羣苗硕±研究生学位论文’、ｌ二題目ＩＩ巧Ｋｉｌ長產睾》）珠武＾４若言．？－．？．．－，．；毛乂

2、－乂，：？备―篡違謗护－＾严非一’－？？；．打．？＼，巧Ｐ替专业捉．／．生寺於屯一－Ｗ．．萬＼：襄研究―如节．一、＇、－心飞．：ｒ巧带＇衣容背；巧产吉．％指导教师寺：苗晏．；＇．－‘，一、－￣Ｖ＇Ｖ企业导师ｇ聲巧—巧襄’＇－＇：＇．．＞－＾：卢－ｊ＾去难球轉’祖儀巧＇—＇＾一：，—逼产媒於苗片．－’－－－，《■－、．：－．；．二巧、曰期：ｌ〇！ｂ年石月２曰．＇．．＇．北京化工大学学位论

3、文原创性声明，本人郑重声明；所呈交的学位论文，是本人在导师的指导下独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中Ｗ明确方式标明。本人完全意识到本声明的法律结果由本人承担。瓜０。告‘１作者签名：东日期：关于论文使用巧巧的说明学位论文作者完全了解北京化工大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属北京化工大学。学校有

4、权保留并向国家有关部口或机构送交论文的复印件和磁盘，允许学位论文被査阅和借阅；学校可Ｗ公布学位论文的全部或部分内容、缩印或其它复制手段保存、汇编，可允许采用影印学位论文。□论文暂不公开（或保密）注释（或；本学位论文属于暂不公开），在年解密后适用本授权书。保密范围＿＿＇ｓ／非暂不公开（或保密）论文注释：本学位论文不属于暂不公开（或保密）范围，适用本授权书。。作者签名＾直日期：么化：兮０（６－导师签名：＾６２：日期学位论文巧巧集中图分类号ＴＰ２７３学科分类

5、号５１０．８０１０论文编号１００１０２０１６０２７２密级公开学位授予单位代１００１０学位授予单位名称北京化工大学苗作者姓名李论通学号２０１３２１０２７２获学位专业名称控制工程获学位专业代码０８５２１０国家自然科学基金项巧題来源？研究方向强化学习０论文題目正则化快速巧小二乘时域差分算法的研究＂７＾强化学习．策略评价，正则化，巧量式最小二乘时域差分学习，极关＾词限学习机２０－－论文答辩日巧１６０５２６？论文类型基

6、础研究学化论文评两义咎辩委员会情巧姓名职称工作单位学科专长指导教师李大字教授北京化工大学先进控制评巧人Ｉ巧其兵教授北京化工大学先进控制北发评阅人２马伟芳教放环境工程评阅人３评巧人４諸委员会主巧王晶ｍ北京化工大学与巧？诊巧答辩委员１巧其兵教巧北京化工大学先进控制答辩委员２王友清教授北京化工大学迭代学习控制答辩委员３化贝克副教授北京化工大学过捏智能仿真答辩委员４黄冉副教投北京化工大学自适拉控制答辩

7、委员５一：：１２３发巧究４注．论文类型．基础研究．应用研究．开．其它二。．中图分类号在《中国困书资料分类法》奎巧－玉．学科分类号在中华人民共和国国家标々（姐八１３７４５９）？学科分类与代码》中奎询。四四位化成．论文巧号由单位代码和年份及学号的后。５￡正则化快巧最小二乘时域差分ＩＩ法的研究摘要策略评价与策略改进是强化学习中两大子问题，其中，策略评价问题也称为学习预测问题，为策略改迸Ｗ求得最优策略提供基础。在众多策略评价算法之中，时域差分学习是强化学习中应用最普

8、遍的方法，同时也为求解学习控制问题的方法提供强有力的基础。正则化是一种能够将先验知识加入目标函数之中，克服值函数逼近器过拟合样本的有效方法。该方法通过对基函数进行选择，使得值函数逼近器产生稀疏解。因此，逼近器的结构得到简化、逼近器的泛化能为得到提升一种能够在不影响样本利用率的前。增量式技术是提下，显著降低策略评价算法的算法复杂度的方法。目前这两种方法在经典的时域差分算法中得到了应用一二

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 74



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

正则化快速最小二乘时域差分算法的研究

正则化快速最小二乘时域差分算法的研究

相关文章

相关标签