欢迎来到天天文库
浏览记录
ID:36806308
大小:346.10 KB
页数:3页
时间:2019-05-15
《基于Q学习算法的发电商报价策略模型》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、维普资讯http://www.cqvip.com第36卷第4期要氧电力Vol_36No.42008年4月EastOhinaElectricPowerApr.2008基于Q学习算法的发电商报价策略模型高瞻,宋依群(上海交通大学电气工程系,上海200240)摘要:针对日前电力市场发电商利益最大化问题,利用Q学习算法构造了发电商策略报价模型。以发电商即时收益和市场相对占有率组成奖赏函数,使发电商策略收益最大化并同时达到提高市场占有率的目的。通过算例验证了模型的有效性,发现如果发电商试图提高市场占有率将
2、选择低报价策略;考虑爬坡限制后使得24h独立的Q学习联立,引起发电商报价策略变化。关键词:Q学习;报价策略;市场相对占有率;Agent作者简介:高瞻(1983一),男,硕士研究生,研究方向为电力系统自动化及电力市场。中图分类号:TM76文献标识码:A文章编号:1001—9529(2008)04-0020-03PowersupplierbiddingstrategiesbasedonQ-learningalgorithmCAOZhan,SONGYi—qun(Dept.ofElectricalEng
3、ineering,ShanghaiJiaotongUniv.,Shanghai200240,China)Abstract:BasedontheQ-leaningalgorithm,amodelofpowersupplierbiddingstrategytomaximizethesupplierSprofitintheday-aheadelectricitymarketispresented.Therewardfunctioniscomposedoftheinstantrevenueandther
4、elativemarketshare,whichenablesthesuppliertoachievethegoalofraisingitsmarketshare.Themodelisprovedeffectivebysimulation.Itisf0undthatthesupplierhastochoosealow—biddingstrategytoraisetheirmarketshare.andtheoptimalbiddingstrategychangesaccordinglywhent
5、heQ--learningprocessseparatedamong24hoursarecon-nectedaftertheconstraintoframprateisconsidered.Keywords:Q—learning;biddingstrategy;relativemarketshare;AgentQ学习是近年来引入电力市场Agent模型的a新方法。以长期利润最大化作为目标,直接估计st,a:最优的动作值函数来确定策略,对于电力市场中的不确定性、不稳定性可以使用Q学习进行模aQ(S,
6、a):{rf+max[Q(s⋯,a)]拟、预测和处理。电力市场的重复运营,使得发电商在学习过程中有足够的反馈信息,不断修正报其中,s表示环境状态,s,为t时刻环境的状态,a表不A—价策略。gent的行动一a为t时刻Agent的行动,g(0≤≤1)为学本文基于Q学习算法构造了一个发电公司习率,rl为t时刻奖赏,(0≤≤1)为未来报酬的贴现率,谋取利益最大化的决策模型,通过算例验证模型Q(s,n)表示t时刻,状态s下,执行动作a后的长期期望的有效性,并比较考虑相对市场占有率或爬坡限收益。制后发电公司
7、报价策略的变化。所有状态一动作对对应Q值构成一个Q表,Agent根据Q表及选择策略7r(S)给出下一时刻1Q学习算法状态下的最佳行为,执行该行为将会使得AgentQ学习是根据当前时刻t的环境状态(S,),确的策略逐步收敛于最优策略。其中定环境中智能体(Agent)最优行动(a,)的学习方7r(S)=argmaxQ(S,a)(2)法,Agent在与环境的交互中获得反馈信息,该反Q学习算法的学习收敛与最优决策是基于利馈信息亦称奖赏(r),根据获得奖赏,对反映状用式(2)和探索(如一degree
8、2)
9、相结合的模式,态一动作对的效果函数Q值进行更新。这也是本文使用的学习模式。探索指Agent尝试Q值的更新方法⋯可以是:新策略来逼近最优策略,一般这一过程越长就越维普资讯http://www.cqvip.com高瞻。等基于Q学习算法的发电商报价策略模型21(总409)能保证Q表中每一对(s,a)获得足够的尝试。为下一运行日每小时市场的预估状态。(2)行动选择:根据选择策略(式(2))选择2发电商报价的Q学习模型下阶段最优行动。为了防止学习过程收敛至局部电力市场环境下,发电商根据发电成本、出清最优解
此文档下载收益归作者所有