基于动机的强化学习及其应用研究

基于动机的强化学习及其应用研究

ID:35061812

大小:3.72 MB

页数:44页

时间:2019-03-17

基于动机的强化学习及其应用研究_第1页
基于动机的强化学习及其应用研究_第2页
基于动机的强化学习及其应用研究_第3页
基于动机的强化学习及其应用研究_第4页
基于动机的强化学习及其应用研究_第5页
资源描述:

《基于动机的强化学习及其应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、-礼'.^始V..I巧心社?产::索取号:公开片巧乃参袁:TTP181密级r南.'一':’'.'二.一苗;巧,於;P'■-一?.I-:>’:V;。,.;'.、?.一、:?:vii-.vj/.一I、■一‘*'"一"'?左共■■■■"f争知.一皂忌I:;满'I'^义:..議誰底i知怒^分.謂最賴'、-’':.武社满雅;rhsJ、硕古学位论文.‘..^.占记:餐者V杳苗遷!'''-'■■■:-.^PV:^瑣诗:%;誤教縣壽賴難暴翻魔戀海磯'謗纖纖誦■■■-''

2、户.‘',L'.■,,-:-.‘'-…v.V.;V:'-r-,;.,V/;.再。,’’.花巧名P巧^lf基于动机的强化学习及矣应用研究一.'’’一-,■..、三.巧乂.->-.-■.,?-r.-'■、.中';'V碱;..’‘?..:-',—.vV■‘"’.’一.?.、?::;、一..;;;X5‘占苗;S/■■■■■::..研造.齊:薦L鲁成祥^義苗麵瞧編;n记麵—麵貧^一‘""'石.琴;与,宝指导教狀曹香教授篡養讓讀.勞譲.於辕箸譯變‘:贵‘

3、'■;巧乂::成;:真强猶縣.軒:巧摩吉诲游:補品V-.辟研忠员:V史植究..潑.,掉屬難誇劈壽':蘇;T工?夸培养專信息科学皋作葛俭学与程院欄專?i養."Vv-;,瑞遊轉媒.r却i-一;这坏:公>级学科;:升算化科学与技术^占姑?;為芝'荒'20化41矿成时间年月良‘悼;.菊乂V數■^'"“*^C去t鮮护—.答辩:20161时间6日年肩-^克牺S猶薦\.;..沾譯.j灣舅戳.如苗!'wmmm::m曲阜师范大学研究生学位论文独创性声明""""(根据学位论文类型相应地在□划V)本人郑重声明;此处所提

4、交的博in/硕±口徐文《基于动机的强化学习/i,在硕七S学及其应用研究》,是本人在导师指导下曲阜师范大学攻读博±〇。化期间独义进巧硏究.X作所取得的成巧论文中除巧明部分外不包含他人己’经发丧或撰与的研究成果。对本文的研究工作做出垂嬰贡献的个人巧集体,均己巧文中从明确的义式注明。。本声明的法律结果将完全由本人承扣作者签名;曰期:戶巧阜师范大学研巧生学位论文使用授权书""""(根据学位论文类型相应地在□划V)《基于动机的强化学习及其应用研巧》系本人在曲阜师范大学攻读博±/硕i砂拿位论文。本论文的□,在导师指导下完成的博±口/硕±0^位期间研巧

5、成果归曲阜师范大学所有,本论文的研充内容不得其他单位的名义发表。本人完全了解曲阜师范火学关于保存、使用学位论文的规定,问意学校保留并向有关部n送交论文的复印件巧电子版本,允许论文被爸阅巧借阅。本人-■if,可i,U公开发表论授权曲阜师范乂学j臥采用影印或巧他狂制手段保巧论文文的全部或部分内容。作者签名曰期::遷讀呼导师签名呂期:令I摘要摘要传统强化学习通常只考虑其外在动机,即针对某一特定的、具体的目标任务,设计专门的外部奖励信号用以驱动智能体进行行为策略的学习,以实现长期累积奖励的最大化。奖励信号通常需要系统设计者根据场景和智能体自身的特点进行专门设

6、计以提高学习效率,缺乏设计上的通用性和学习上的主动性。针对降低奖励信号设计难度和实现智能体自主学习的需要,本文在对现有的动机奖励机制和动机强化学习框架进行研究的基础上,借鉴情感心理在人类行为决策中的角色,通过将智能体感知到的状态映射为情感维度,提出了一种量化的情感模型作为内在动机机制。内在情感动机在外界奖励信号的基础上提供附加补充奖励,或者单独作为奖励来驱动智能体进行学习,从而形成一套闭环的“感知–评价–内在情感动机相关奖励与外界奖励相结合–强化学习–行动–感知”基于情感动机的强化学习框架。内在情感动机与具体的任务无关,因此具有一定的通用性,其量化模型中,好奇心通过评价状态和动作的

7、新奇程度来控制智能体对陌生或熟悉环境的探索偏好;控制欲通过评价智能体对环境模型的掌控程度来调节智能体在“保守”和“冒险”策略间的权衡;而幸福指数则用来判断当前状态和动作的相对优劣程度,对外部奖励进行微调;三者结合作为内在动机共同实现对智能体学习和行为偏好的调整。在基于情感动机的强化学习框架的基础上,本文对其在提高传统强化学习中具体任务学习效率方面的应用进行了仿真验证:一是将内在情感动机驱动的学习作为具体任务学习的“预习阶段”,提前学习到尽可能准确的环境模型供后期具体任

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。