欢迎来到天天文库
浏览记录
ID:52479171
大小:555.79 KB
页数:7页
时间:2020-03-28
《基于多步回溯Q(λ)的PSS最优控制方法的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第39卷第3期电力系统保护与控制V_01.39No.32011年2月1日PowerSystemProtectionandControlFeb.1,2011基于多步回溯Q(九)的PSS最优控制方法的研究余涛,甄卫国(华南理工大学电力学院,广东广州510640)摘要:电力系统稳定器(PSS)是用来产生能抑制低频电力系统振荡的励磁系统辅助控制信号,具备自学习和参数在线整定能力是未来智能电网PSS控制器的一个发展趋势。提出一种基于多步回溯Q(九)学习的新颖电力系统稳定器设计方法。利用多步回溯Q("控制器代替整个传统PSS作为励磁附加控制,并与传统PSS和Q学习控
2、制器进行比较。仿真研究显示,引入基于多步回溯Q(学习的PSS控制后显著增强了整个系统的鲁棒性,有效提高了系统抑制低频电力系统振荡的能力,较好地解决了O学习控制器收敛速度慢的问题。关键词:电力系统稳定器(PSS);马尔可夫策略(MDP);强化学习;Q学习;多步回溯O()学习OptimalcontrolmethodofPSSbasedonmulti·stepbacktrackQ(learningYUTao,ZHENWei—guo(CollegeofElectricPower,SouthChinaUniversityofTechnology,Guangzhou
3、510640,China)Abstract:Powersystemstabilizers(PSS)areusedtogeneratesupplementarycontrolsignalsfortheexcitationsysteminordertodampthelowfrequencypowersystemoscillations.Withthedevelopmentofsmartgrids,themultiplyPSScontrollerswiththeabilitiesofself-learningandself-tuningbecometheatt
4、ractivetrend.Anovelcontrolmethodofpowersystemstabilizer(PSS)basedonmulti-stepbacktrackQ()learningisproposedinthispaper.Themulti—stepbacktrackQ(九)controllerisusedtoreplacetheconventionalPSStogeneratesupplementarycontrolsignalsfortheexcitationsystem,andiscomparedwiththeconventional
5、PSSandQ—learningcontroller.ResultsshowthattheQ(九)controllerstrengthenstherobustnessofthepowersystemandenhancestheabilityofdampingthelowfrequencypowersystemoscillations.Besides,itcansolvetheproblemoftheslowconvergencerateofQ-learningcontroller.ThisworkissupportedbyNationalNaturalS
6、cienceFoundationofChina(No.50807016)andNaturalScienceFound~ionofGuangdongProvince(No.9151064101000049).Keywords:powersystemstabilizer(PSS):Markovdecisionprocess(MDP);reinforcementlearning;Q—learning;multi—stepbacktrackQ()learning中图分类号:TM712文献标识码:A文章编号:1674—3415(2011)03—0018—06行自我
7、改进。RL具有强大的在线自学习能力,易0引言于进行动态并行计算,且算法对研究对象的数学模强化学习L1J(ReinforcementLearning,RL),又型不敏感。电力系统是一个复杂的动态大系统,由称再励学习、评价学习,既可看作是人工智能领域于电力系统具有复杂的非线性和不确定性,传统方中一种重要的机器学习方法,也被认为是属于马尔法是采用系统辨识或工程经验的途径,其应用效果可夫决策过程J(MarkovDecisionProcess,MDP)往往受到实际环境的限制,而RL可以把控制系统和动态优化方法的一个独立分支。的性能指标要求转化为一种评价指标,智能体
8、RL方法基本思想是一个学习系统与其环境的(Agent)通过奖励和惩罚进行学习。笔
此文档下载收益归作者所有