基于信息熵的POMDP模型观测函数估计

基于信息熵的POMDP模型观测函数估计

ID:36655710

大小:507.39 KB

页数:6页

时间:2019-05-13

基于信息熵的POMDP模型观测函数估计_第1页
基于信息熵的POMDP模型观测函数估计_第2页
基于信息熵的POMDP模型观测函数估计_第3页
基于信息熵的POMDP模型观测函数估计_第4页
基于信息熵的POMDP模型观测函数估计_第5页
资源描述:

《基于信息熵的POMDP模型观测函数估计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ZTETECHNOLOGYJOURNAL技术广角钟可立等基于信息熵的POMDP模型观测函数估计DOI:10.3969/j.issn.1009-6868.2015.05.013网络出版地址:http://www.cnki.net/kcms/detail/34.1228.TN.20150222.1740.015.html基于信息熵的POMDP模型观测函数估计InformationEntropyBasedEstimationforObservationFunctionofPOMDPModel中图分类号:TN91;TN919.8

2、文献标志码:A文章编号:1009-6868(2015)05-0050-006钟可立/ZHONGKeli摘要:部分可观测马尔可夫决策过程(POMDP)广泛应用于建模决策任务。模型王小捷/WANGXiaojie中的观测矩阵主要用来建模环境的不确定性,通常很难从训练数据中直接获取,需(北京邮电大学,北京100876)要引入额外的信息进行估计。通过引入信息熵来修正模型中的观测矩阵,修正后的(BeijingUniversityofPostsand观测矩阵更能反映环境的不确定性。模拟环境下的实验表明,引入信息熵进行修正Telecom

3、munications,Beijing100876,China)估计的观测矩阵有效提高了POMDP模型的性能,而在基于POMDP模型的对话系统中,修正的估计提高了系统的决策准确度。关键词:部分可观测马尔可夫决策过程;不确定性;意图识别;观测矩阵;信息熵Abstract:PartiallyObservableMarkovDecisionProcess(POMDP)isadecisionmodelusedextensivelyfordecisiontasks.Theobservationmatrixofthemodelisa

4、channelthatreflectstheuncertaintyofsurroundings,whichishardtododirectly略,POMDP将客观世界的动态特性fromthecorpus.Extrainformationneedstobeintroducedforestimationofthe用状态转移来描述,在状态不完全可observationmatrixandbetterreflectionofsurroundings.Theconceptofinformation观测的情况下,系统通过与环境交ent

5、ropyisintroducedtomodifytheobservationmatrixinthemodelbywhichthe互,进行决策,管理对话过程。modifiedobservationmatrixcanreflecttheuncertaintyofthesituationmoreprecisely.Simulatedexperimentandrealsituationshowthatintroducinginformation虽然基于POMDP模型的对话管entropytomodifytheobservatio

6、nmatriximprovesperformanceofthePOMDP理具有更大的灵活性,可用于状态不modeltogetherwiththedecision-makingaccuracyinadialoguesystembasedon完全可观测的情况,但是模型需要统POMDP.计状态转移矩阵,在训练过程比较依Keywords:partiallyobservablemarkovdecisionprocess;uncertainty;intention赖于数据;需要定义回报函数,目前identification;obse

7、rvationmatrix;informationentropy没有很好的估计方法;需要估计观测概率矩阵,一般情况下是很难从数据中直接估计。这些问题会给基于POMDP模型的对话管理带来困难。基于POMDP模型的对话管理是机对话是语言信息处理中的一机的方法虽然易于设计,但是不灵根据当前的信念状态分布来选择动人个重要应用任务,对话管理是活,不自然,难以应付复杂的任务。作,因此信念状态的估计会直接影响对话系统中的核心组成部分,决定了基于框架的方法实现的复杂度较低,到系统决策性能,而观测函数的估计对话系统的质量,为此出现了很多关

8、但是对话比较机械,人机交互的自然也会直接影响到信念状态的估计。于对话管理模型的研究。度较低。基于信息状态的方法比较在对话系统中,POMDP模型的观测已有的对话管理技术[1]主要包灵活,能丰富的表达对话的状态,把函数一般是建模从用户对话意图到括:基于自动机的方法[2-3],基于框架对话过程看作是一列规则的变化,但系统状

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。