基于rl的遗传算法的制造车间生产调度研究

基于rl的遗传算法的制造车间生产调度研究

ID:31431366

大小:108.00 KB

页数:7页

时间:2019-01-09

基于rl的遗传算法的制造车间生产调度研究_第1页
基于rl的遗传算法的制造车间生产调度研究_第2页
基于rl的遗传算法的制造车间生产调度研究_第3页
基于rl的遗传算法的制造车间生产调度研究_第4页
基于rl的遗传算法的制造车间生产调度研究_第5页
资源描述:

《基于rl的遗传算法的制造车间生产调度研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于RL的遗传算法的制造车间生产调度研究  摘要:该文从工程应用角度给出了车间调度的问题建模和求解车间作业调度问题的标准遗传算法及优缺点,结合RL对动态的生产环境提出一种基于智能体RL的车间调度方法。该算法将遗传算法与RL相结合,根据弹性生产环境获取较优的交叉率,从而优化在线算法。  关键词:遗传算法;增强学习RL;交叉率;生产调度  中图分类号:TP311文献标识码:A文章编号:1009-3044(2016)25-0218-02  模具制造属于非重复性的离散生产过程,模具生产结构复杂、工艺制作繁琐。加工步骤及工时的不确定使得模具制造车间管理变得

2、复杂。在制定车间作业计划时,由于没有样件的试制,有些问题会在生产过程中暴露出来。遇上突发事件如某台机器发生故障,相关的零件加工也要作相应的调整,前后相关的生产任务也要做修改,这就引发了动态的生产调度管理。要提高生产资源的利用率,对人力资源及现有生产设备如何按最优化的形式进行调配,使得对制造车间进行生产调度显得特别困难和重要。  1模型建立  模具车间调度生产问题模型可以描述为:  (1)零件集:加工i个零件,需要机器j台,每零件有k道加工序列,在一个时间段一台机器只能加工一个零件的某道工序,并有零件加工顺序约束,每道工序可以占有若干台机器;7  

3、(2)机器集:因生产调度时有机床约束而不会出现人员约束,所以只给出工序的机器分配,车间内可用机床台,标号组成机床集;  (3)机器使用时间:每个零件使用每台机器的时间用T矩阵表示,tijk表示第i个零件在j台机器上加工第k道所消耗的时间,可以由n台机器加工第k道工序,第k道工序在n台机器上的加工时间随操作人员、设备性能的不同使加工时间有所不同,要表示加工时间值上下波动的不确定因素常采用三角数,最少时间、最大时间、最小时间[1]。  则调度目标:零件i投入生产时间为(,,),完工期为=,当零件的在内加工完成时用户满意度为1,反之为0;要用表示,当j

4、台机床在加工第零件的第道工序时为1,反之为0;当第i工件第k道工序设定完工时间是,实际完成时间为,则满意度为设定完工时间的所属函数与完成期的所属函数交叉面积与完成期的所属函数面积的比[1],由满意度得到调度目标函数为:  工件的加工工序在机器上完工时间:。  2遗传算法求解车间调度经验7  遗传算法在求解车间作业问题时,将搜索空间中的参数转换成遗传空间中的染色体,通过一定规则进行逐步迭代产生新个体,新个体经交叉、变异和复制操作又产生新的个体,遗传算法的操作简单,全局搜索能力强,缺点是控制参数如个体规模、适应度指标、变异率、交叉率等较多,参数组合不

5、同,搜索过程可能会出现多方面的功效,影响遗传算法行为和性能的关键因素是如何选择交叉概率和变异概率,交叉概率过小,会降低搜索过程,新个体结构产生不易;而交叉概率过大,加快产生新个体,也越有可能破坏遗传模式[1]。  要求出制造车间生产调度问题中遗传算法各参数的合适值是一件难事,必须通过反复试验才能获取当前最优值,因而这些参数如果能进行自适应动态实时的变动对遗传算法在解决生产调度问题上有着积极的作用。  3智能RL模式  Muller提出的智能增强学习(ReinforcementLearning)是一种基于行为方法的半监督学习,它包括负责智能体之间信

6、息交换的通讯层、完成指定任务的协作求解的协作层和接收命令来感知环境变化及改变环境任务的控制层[5]。增强学习RL的目的是动态调整参数从而实现信号强化,当一个动作行为作用于环境,RL将产生动作评价奖惩值合反馈环境状态给智能体,根据相关策略智能体选择下一个行为去影响环境状况,并对新环境做出调整,修改后的新环境状态所给出的信息和奖惩值重新影响智能体,RL中智能体依靠自身经历进行学习获取知识,从而改进行动方案来适应环境。基本的RL模型包括离散的状态信号反馈集合、行为集合、动作评价奖惩值和环境状态集合,如下图:7  遗传算法中变异和交叉概率值的选择直接影响

7、算法的收敛性,针对制造车间的工件加工顺序、机床调配和加工时间等生产调度问题,最佳的变异和交叉概率值得获取需要通过反复实验,当加工状况一旦变化最优概率值又要重新寻找,因而单一的遗传算法是不能满足实时动态的车间作业调度的决策过程,而且在调度规模较大时很难保证获取最优值的收敛速度[2],智能RL能根据行为和评价的环境获取知识进而改变行动方案来适应环境的能力可以有效地完成随机搜索,遗传算法如能结合RL可以提高获取最佳变异概率和交叉概率的速度。  4基于RL的遗传算法的设计  增强学习RL在一个环境下的行为产生一个奖惩值,奖惩值越大,则该行为被采用的可能性

8、越大[3],通过不断重复的学习积累奖惩值找到一个最优的变异概率和交叉概率的行为策略,这与人为调整概率值有很大的差异[4],因而作为一种解

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。