最大熵模型and自然语言处理

最大熵模型and自然语言处理

ID:15173136

大小:728.63 KB

页数:11页

时间:2018-08-01

最大熵模型and自然语言处理_第1页
最大熵模型and自然语言处理_第2页
最大熵模型and自然语言处理_第3页
最大熵模型and自然语言处理_第4页
最大熵模型and自然语言处理_第5页
资源描述:

《最大熵模型and自然语言处理》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、自然语言处理的最大熵模型常宝宝北京大学计算语言学研究所,100871(一)日常生活中,很多事情的发生表现出一定的随机性,试验的结果往往是不确定的,而且也不知道这个随机现象所服从的概率分布,所有的只有一些试验样本或样本特征,统计学常常关心的一个问题,在这种情况下如何对分布作出一个合理的推断?根据样本信息对某个未知分布作出推断的方法,最大熵的方法就是这样一个方法。最大熵原理是在1957年由E.T.Jaynes提出的,其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。因为在这种情况下,符合已知知识的概率分布可能不止一个。我们知道,熵

2、定义的实际上是一个随机变量的不确定性,熵最大的时侯,说明随机变量最不确定,换句话说,也就是随机变量最随机,对其行为做准确预测最困难。从这个意义上讲,那么最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法作出。看一个简单的例子:设a∈{x,y}且b∈{0,1},要推断概率分布p(a,b),唯一所知道的信息是p(x,0)+p(y,0)=0.6,即:p(a,b)01x??y??0.61.0由

3、于约束条件很少,满足条件的分布有无数多个,例如下面的分布就是满足已知条件的一个分布:p(a,b)01x0.50.1y0.10.30.61.0但按照最大熵原则,上述分布却不是一个好的分布,因为这个分布的熵不是满足条件的所有分布中熵最大的分布。按照最大熵的原则,应该选择的下面的分布:p(a,b)01x0.30.2y0.30.20.61.0因为,最大熵原则要求,合理的分布应该同时满足要求:(1)p*=argmaxH(p)=argmax[−∑p(a,b)logp(a,b)]p∈Pp∈Pa∈{x,y},b∈{0,1}(2)p(x,0)+p(y,0)=0.6(3)p(x,0)+

4、p(x,1)+p(y,0)+p(y,1)=1上述例子比较简单,通过观察就可以得到熵值最大的概率分布,即使不能观察得到,也可以通过解析的方法得到。可是对于很多复杂的问题,往往不能用一个解析的办法获得。(二)自然语言处理中很多问题都可以归结为统计分类问题,很多机器学习方法在这里都能找到应用,在自然语言处理中,统计分类表现在要估计类a和某上下文b共现的概率P(a,b),不同的问题,类a和上下文b的内容和含义也不相同。在词性标注中是类的含义是词性标注集中的词类标记,而上下文指的是当前被处理的词前面一个词及词类,后面一个词及词类或前后若干个词和词类。通常上下文有时是词,有时是

5、词类标记,有时是历史决策等等。大规模语料库中通常包含a和b的共现信息,但b在语料库中的出现常常是稀疏的,要对所有可能的(a,b)计算出可靠的P(a,b),语料库规模往往总是不够的。问题是要发现一个方法,利用这个方法在数据稀疏的条件下可靠的估计P(a,b)。不同的方法可能采用不同的估计方法。最大熵的原则:将已知事实作为制约条件,求得可使熵最大化的概率分布作为正确的概率分布。若用A表示所有类的集合,B表示所有上下文的集合,那么正确的p应满足下面两条:(1)可以使熵最大化的p。pˆ=argmaxH(p)p这里x=(a,b),a∈A,b∈B,ε=A×B(2)p要服从从样本数

6、据中已知的统计证据。现在的问题是已知知识如何表示,语料库中包含的各种知识应如何在最大熵模型中得到体现?在最大熵模型中,通常采用特征的办法来表示证据,特征可定义为如下的二值函数:f:ε→{0,1}若有k个特征,那么特征j对p的制约可以表示为:~Epfj=Epfj(1)其中1≤j≤k,Epfj表示在概率分布为p时,特征fj的期望值。E~pfj表示特征fj的样本期望值。所以有:Epfj=∑p(x)fj(x)x∈εE~pfj=∑~p(x)fj(x)x∈ε~()p(x在这里表示事件x在样本数据中的概率)公式(1)的含义是在概率分布p的情况下,特征的期望值应该和从样本数据中得到

7、特征的样本期望值一致。用P表示所有满足特征约束条件的分布,根据最大熵原则,就是要在P中选择一个能使熵取最大值的概率分布,这可以表示为:P={p

8、Epfj=E~pfj,1≤j≤k}*p=argmaxH(p)p∈P但满足上述条件的概率分布是一个什么样的分布呢?已经证明满足上述条件的概率分布p*具有如下的形式:k*fj(x)p(x)=π∏αj,0≤αj≤∞(2)j=1π是归一常数,αj是模型参数,每一个特征fj对应一个αj,αj可以被看作表示特征fj相对重要程度的权重。最大熵模型的优点是:在建模时,试验者只需要集中精力选择特征,而不需要花费精力考虑如何使用这些特征。而

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。