基于Q学习算法的发电商报价策略模型

ID：36806308

大小：346.10 KB

页数：3页

时间：2019-05-15

资源描述：

《基于Q学习算法的发电商报价策略模型》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、维普资讯http://www.cqvip.com第36卷第4期要氧电力Vol_36No．42008年4月EastOhinaElectricPowerApr．2008基于Q学习算法的发电商报价策略模型高瞻，宋依群(上海交通大学电气工程系，上海200240)摘要：针对日前电力市场发电商利益最大化问题，利用Q学习算法构造了发电商策略报价模型。以发电商即时收益和市场相对占有率组成奖赏函数，使发电商策略收益最大化并同时达到提高市场占有率的目的。通过算例验证了模型的有效性，发现如果发电商试图提高市场占有率将

2、选择低报价策略；考虑爬坡限制后使得24h独立的Q学习联立，引起发电商报价策略变化。关键词：Q学习；报价策略；市场相对占有率；Agent作者简介：高瞻(1983一)，男，硕士研究生，研究方向为电力系统自动化及电力市场。中图分类号：TM76文献标识码：A文章编号：1001—9529(2008)04-0020-03PowersupplierbiddingstrategiesbasedonQ-learningalgorithmCAOZhan，SONGYi—qun(Dept．ofElectricalEng

3、ineering，ShanghaiJiaotongUniv．，Shanghai200240，China)Abstract：BasedontheQ-leaningalgorithm，amodelofpowersupplierbiddingstrategytomaximizethesupplierSprofitintheday-aheadelectricitymarketispresented．Therewardfunctioniscomposedoftheinstantrevenueandther

4、elativemarketshare，whichenablesthesuppliertoachievethegoalofraisingitsmarketshare．Themodelisprovedeffectivebysimulation．Itisf0undthatthesupplierhastochoosealow—biddingstrategytoraisetheirmarketshare．andtheoptimalbiddingstrategychangesaccordinglywhent

5、heQ--learningprocessseparatedamong24hoursarecon-nectedaftertheconstraintoframprateisconsidered．Keywords：Q—learning；biddingstrategy；relativemarketshare；AgentQ学习是近年来引入电力市场Agent模型的a新方法。以长期利润最大化作为目标，直接估计st,a：最优的动作值函数来确定策略，对于电力市场中的不确定性、不稳定性可以使用Q学习进行模aQ(S，

6、a)：{rf+max[Q(s⋯，a)]拟、预测和处理。电力市场的重复运营，使得发电商在学习过程中有足够的反馈信息，不断修正报其中，s表示环境状态，s，为t时刻环境的状态，a表不A—价策略。gent的行动一a为t时刻Agent的行动，g(0≤≤1)为学本文基于Q学习算法构造了一个发电公司习率，rl为t时刻奖赏，(0≤≤1)为未来报酬的贴现率，谋取利益最大化的决策模型，通过算例验证模型Q(s，n)表示t时刻，状态s下，执行动作a后的长期期望的有效性，并比较考虑相对市场占有率或爬坡限收益。制后发电公司

7、报价策略的变化。所有状态一动作对对应Q值构成一个Q表，Agent根据Q表及选择策略7r(S)给出下一时刻1Q学习算法状态下的最佳行为，执行该行为将会使得AgentQ学习是根据当前时刻t的环境状态(S，)，确的策略逐步收敛于最优策略。其中定环境中智能体(Agent)最优行动(a，)的学习方7r(S)=argmaxQ(S，a)(2)法，Agent在与环境的交互中获得反馈信息，该反Q学习算法的学习收敛与最优决策是基于利馈信息亦称奖赏(r)，根据获得奖赏，对反映状用式(2)和探索(如一degree

8、2)

9、相结合的模式，态一动作对的效果函数Q值进行更新。这也是本文使用的学习模式。探索指Agent尝试Q值的更新方法⋯可以是：新策略来逼近最优策略，一般这一过程越长就越维普资讯http://www.cqvip.com高瞻。等基于Q学习算法的发电商报价策略模型21(总409)能保证Q表中每一对(s，a)获得足够的尝试。为下一运行日每小时市场的预估状态。(2)行动选择：根据选择策略(式(2))选择2发电商报价的Q学习模型下阶段最优行动。为了防止学习过程收敛至局部电力市场环境下，发电商根据发电成本、出清最优解

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 / 3



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于Q学习算法的发电商报价策略模型

基于Q学习算法的发电商报价策略模型

相关文章

相关标签