基于强化学习算法的电梯动态调度策略的研究

基于强化学习算法的电梯动态调度策略的研究

ID:32468093

大小:2.45 MB

页数:78页

时间:2019-02-06

基于强化学习算法的电梯动态调度策略的研究_第1页
基于强化学习算法的电梯动态调度策略的研究_第2页
基于强化学习算法的电梯动态调度策略的研究_第3页
基于强化学习算法的电梯动态调度策略的研究_第4页
基于强化学习算法的电梯动态调度策略的研究_第5页
资源描述:

《基于强化学习算法的电梯动态调度策略的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文摘要本文主要研究了基于强化学习的电梯群组调度。由于电梯群组系统重要的实际意义,电梯群组的调度问题得到广泛关注。电梯系统是一类在连续时间和空间中运行的离散事件动念系统(DEDS),为探索解决问题的有效方法,首先对DEDS调度方法进行研究。在总结DEDS调度方法及应用领域的基础上,将其归类为传统方法、智能方法和强化学习方法。强化学习作为动态规划的近似算法起源于人工智能领域,随着强化学习的数学基础取得突破性迸展,逐渐引起人工智能、控制理论和运筹学等领域的研究兴趣。论文研究了强化学习原理及发展历史,分析了其框架背景及其避免了在状态空间中做耗尽式搜索而导致的不

2、可计算问题的特点以及环境模型不再是计算要素的特点,并建立强化学习基本模型。另外,论文根据不同的框架背景对强化学习方法做了分类性研究和典型算法阐述,建立了研究强化学习方法解决实际问题的一般步骤,这对后续研究起指导性意义。强化学习方法作为在与环境的交互过程中学习最优策略的方法,适合于求解电梯群组调度这种大规模动态优化问题。论文在详细分析电梯群组调度领域特点的基础上,总结出电梯群组调度的三大难点,即问题状态空间大、系统运行过程伴随极大的不确定性和重派梯导致的大计算量。以马尔可夫决策过程(MDP)为背景,模型化电梯群组调度问题,根据领域特点定义模型各要素。论文运

3、用随机行为选择策略和前馈神经网络分别解决强化学习在应用中所存在的探索问题和值函数的泛化问题。并将两者与Q-learning的值迭代算法结合,共同构成基于强化学习的电梯群组调度算法。论文设计了开放的、松耦合的算法软件结构,定义各部分功能函数的接口,方便未来的重用;使用MATLAB作为算法运行的主要环境,提高了算法开发的快速性和调试的高效性。结合电梯群控虚拟仿真环境进行调度算法仿真,共4种不同的交通流条件被用于算法的仿真与训练。实验结果展现了算法较好的学习能力,在与其他调度算法比较中体现了优秀的性能和对不同交通流条件的适应能力。关键词:电梯群组调度强化学习D

4、EDS函数逼近MDPABSTRACTThisthesismainlyresearcheselevatorgroupschedulingbasedonreinforcementlearningmethod.Theproblemofelevatorgroupschedulinghasbeenresearchedextensivelyduetoitshighpracticalsignificance.ElevatorgroupsystemisatypeofDiscreteEventDynamicSystem(DEDS)operatingincontinuous

5、timeandspace.SoinordertOfindouttheeffectivemethodforelevatorgroupschedulingproblem,thoseforDEDSschedulingareinvestigated.AndonthebasisoftheoverviewofDEDSschedulingmethodsandtheirapplications,themethodsareclassifiedintothreetypes:classicalmethods,intelligentmethodsandreinforcement

6、learningmethod.ReinforcementlearningdedvedfromAI,asanapproximatemethodofdynamicprogramming,hasdrawnmoreattentionoftheresearchersinfieldsofAI,controltheoryandoperationalresearch、Ⅳitllbreakthroughsinitsmathematicalfoundation.Thisthesispresentsthebasictheoryofreinforcementlearningan

7、ditshistory,analyzesitsbackgroundandthetwocharacteristicsofavoidingthecomputationalintractabilityresultedformtheexhaustedsweepsinstatespaceandenvironmentalmodelnotbeingnecessaryforvalueiterationandthenthebasicmodelforreinforcementlearningmethodsiSestablished.What’Smore,thereinfor

8、cementlearningmethodsaredividedintodiffe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。