基于强化学习算法的供应链管理订单策略研究,

基于强化学习算法的供应链管理订单策略研究,

ID:30504663

大小:305.18 KB

页数:5页

时间:2018-12-30

基于强化学习算法的供应链管理订单策略研究,_第1页
基于强化学习算法的供应链管理订单策略研究,_第2页
基于强化学习算法的供应链管理订单策略研究,_第3页
基于强化学习算法的供应链管理订单策略研究,_第4页
基于强化学习算法的供应链管理订单策略研究,_第5页
资源描述:

《基于强化学习算法的供应链管理订单策略研究,》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于强化学习算法的供应链管理订单策略研究*数据通信2013.1摘要:供应链管理中的订单制定环节,经常存在一种需求被变异放大的现象即牛鞭效应,从而引起成本的增加。利用强化学习算法进行供应链管理中的订单制定,使得供应链中的节点能够做出较好的订单策略,从而降低整体成本,以提高效益。实验结果证明,提出的基于强化学习算法的订单制定策略比传统的固定库存策略更加有效的降低了成本。关键词:供应链管理;强化学习算法;订单策略1引言供应链管理中的订单制定由于不确定性和整条供应链的延迟性,成为难以控制的环节。如果订单制定这一环节出现问题,则将使整条供应链的成本增加。对于订单制定策略的选取,一般的做

2、法是基于库存来进行订单的制定,因此,订单制定策略又等同于库存管理策略。目前,国内外比较流行的库存管理策略,如供应商管理库存、联合库存控制、第三方物流管理库存等,起到了良好的降低成本的效果。然而这些策略主要集中在管理层面上,利用科学的、定量的方法进行订单制定的研究则很少。本文将利用人工智能领域的强化学习算法进行供应链管理订单制定。强化学习算法是人工智能领域一种重要的学习算法,在智能控制机器人及分析预测等领域有许多应用。在强化学习中,并不存在明确的监督者,取而代之的是Agent获得动作执行结果的相关反馈,该反馈表示了对某一状态的满意程度。本文选取强化学习算法是基于该算法在动态条件

3、下的有效性。本文利用强化学习算法有效地消除了供应链管理中订单制定的不确定性,大大降低了整条供应链的成本,取得了不错的效益。本文中的基本概念:状态为环境的表示策略:从Agent能感知到的环境状态到动作之间的映射状态转移:由一个状态转移到另一个状态;报酬:在某一个状态执行一个动作而得到的直接或间接的回报。正为奖励,负为惩罚H;马尔科夫决策问题:由四元组定义。S环境状态集、A策略集合、R奖惩函数、状态转移函数。当前状态向下一个状态的转移概率和奖励只取决于当前状态和选择的动作,与历史状态、动作无关0]。2模型设计2.1供应链模型图I供应链模型图1所示的供应链模型,整

4、条链上有5个节点:供应商、生产商、批发商、零售商、客户5]。设定:每层节点的订单只发给其邻近上游节点:例如零售商的订单只发给批发商,批发商的订单只发给生产商,生产商的订单只发给供应商;发货有两周的延误期,即本周发出的货,两周后才能到达下游节点;供应商的货源充足;供应链的运作以周为单位个周期由若干单位组成;节点发货时,最大限度满足下游节点的需求,需要考虑当前处理订单和累计缺货量;计算成本22收稿日期:2012-09-29卜基金项目:北京市学科与研究生教育基金(PXM2012-014224-000038)和北京信息科技大学基金项目(5028223400)时,缺货的惩罚要比库存的大

5、。2.2强化学习算法模型状态模型:试验中设计了3种状态模型,分别为:以成本为状态模型一生产商、批发商、零售商3个节点的成本在一起进行编码,3位数字依次表示其成本,每一位的编码范围都相同。以库存为状态模型一生产商、批发商、零售商3个节点的库存在一起进行编码,3位数字依次表示其库存,每一位的编码范围都相同。以库存和缺货为状态模型一生产商、批发商、零售商3个节点的库存和缺货情况在一起编码,3位数字依次表示其库存和缺货情况,每一位的编码范围都相同。对于不同的测试数据,编码数据通信2013.1的范围不一样。动作模型:生产商、批发商,零售商3个节点发出的订单在一起编码,动作由3部分组成(

6、a0,a1,a2,分别表示生产商、批发商、零售商发给上游节点的订单数。3部分编码范围相同。对于不同的测试数据,编码的范围不一样,需要动态变化。报酬模型:每个状态处的报酬都用一个固定的数减去此状态时3个节点的成本和,用公式表示:RStateJ=NUM-(costManufacturer]StatEĴ+costWholesaler]State])+costRetailer][State])(1)其中NUM是固定的常数,根据不同的测试数据动态的取值。学习策略:(1)0.9概率探索、0.1概率使用策略在进行探索时,为了使Q值更新的更快,本文使用了以0.9的概率进行一次探索,以0.1的

7、概率使用之前得到的Q值。使用时,每个状态都选择Q值最大的动作执行,这样可以使之前较大Q值得到加强,从而使学习效率更高。(2多步Q值更新策略在更新Q值时,我们采用多步Q值更新策略,目的是为了提高学习效率。因为按照算法框架,每走一步就更新_下0值,Q值的变化效果并不明显,长远的奖励对Q值的影响较小。若探索一定步数之后,再从后向前的更新Q值,那么Q值的变化会更加明显,长远的奖励对Q值的影响会更大一些。(3)纯随机选择动作策略在选取动作时,使用系统的随机数生成函数,利用这个数字在备选动作集,选择所要执行的动作。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。