资源描述:
《EM算法在统计自然语言处理中地应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第27卷第19期计算机工程与设计2006年10月Vol.27No.19ComputerEngineeringandDesignOct.2006EM算法在统计自然语言处理中的应用王继曾,刘宽,任浩征,罗恒(兰州理工大学计算机与通信学院,甘肃兰州730050)摘要:在统计自然语言处理中会经常遇到一类参数估值问题,就是当观察数据为不完全数据时如何求解参数的最大似然估计,EM算法就是解决这类问题的经典算法。给出了EM算法的基本框架,结合HMM和PCFG模型给出如何应用EM算法求解参数的极大似然估计,讨论了EM算法的优
2、点和不足之处。关键词:自然语言;EM算法;参数估计;似然函数;隐马尔科夫模型;概率上下文无关文法中图法分类号:TP391文献标识码:A文章编号:1000-7024(2006)19-3715-03ApplicationofEMalgorithminstatisticalnaturallanguageprocessingWANGJi-zeng,LIUKuan,RENHao-zheng,LUOHeng(SchoolofComputerandCommunication,LanzhouUniversityofTechn
3、ology,Lanzhou730050,China)Abstract:Instatisticalnaturallanguageprocessing,oneclassproblemisoftenencounteredthathowtoestimatetheparameter'smaximum-likelihoodestimationwhenobserveddatasetisincomplete.EMalgorithmistheclassicalmethodtosolvethisproblem.Thebasicf
4、ra-meworkoftheEMalgorithmisdescribed,andthenhowtoapplytheEMalgorithmisdemonstratedtosolvetheproblemofmaximum-likelihoodparametersestimationcombinewiththemodelsofHMMandPCFG.Finally,theadvantagesanddisadvantagesofEMalgo-rithmarediscussed.Keywords:naturallangu
5、age;EMalgorithm;parameterestimation;likelihoodfunction;hiddenMarkovmodel;probabilisticcontextfreegrammarEM算法求解参数的极大似然估计,最后给出了结论。0引言1EM算法基本框架随着大规模机器可读语料库的出现和计算机运行速度和存储容量的快速提高,经验主义在自然语言处理领域也得本文给出的基本框架可以参见文献[1~3]。EM算法的基到了迅速复兴。基于统计学习方法的引入已经使计算语言本思想是将问题求解分为两步,即E
6、步骤(对完全数据集似然学领域发生了极大的改变,这种学习方法能够通过语料库的函数的对数求条件期望)和M步骤(对求出的期望值进行最大训练自动或部分自动处理语言学知识,对“知识获取瓶颈”问化),然后不断地迭代E步骤和M步骤,直到求出极大值点为题的解决具有重要意义。止。算法的形式化描述如下:但是,在统计自然语言处理中会经常遇到这样一类参数假定完全数据集为Z=(X,Y),数据集X为观察到的数据估值问题,就是当可观察数据为不完全数据时如何求解参数集,Y为缺失(或隐藏)的数据集,则Z在参数集上的关于x、y的最大似然估计。E
7、M算法就是解决这类问题的经典算法,的联合密度函数为=,=,,其中x∈X,EM(expectationmaximum)算法是由Dempster,Laird和Rubiny∈Y。此时完全数据集Z的似然函数为=,=于1997年提出来的,这种方法广泛应用于不完全数据的参,。数估计。EM算法的第1步(E步)就是找到对数似然函数log,EM算法有两个主要的应用[1]:一个是用于数据确有缺在给定观测数据集X和当前参数集(i-1)时关于未知数据集失情况下的参数估计,另一个应用是通过假定存在另外一些Y的期望值,也就是计算下式的值
8、:缺失参数(这些参数可能是不存在的或隐藏的),这样可以大,1=log,,1大简化似然函数。后一种在统计自然语言领域的应用更为其中就是经过优化后的新的参数集,使函数Q的值在新的普遍。本文首先给出了EM算法通用的基本框架,然后结合参数下不断增加。隐马尔科夫模型和概率上下文无关文法模型给出如何应用EM算法的第2步(M步)为最大化第1部分的期望值,也收稿日期:2005-08-12。作者简介:王继曾(1950