资源描述:
《主题:统计自然语言处理的数学基础.ppt》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数学基础叶莎妮07-03-30主要内容概率论基础信息论基础概率论基础概率贝叶斯法则基于最小错误率的贝叶斯决策基于最小风险的贝叶斯估计期望、方差、协方差、相关系数几种常用的分布估计概率密度的方法概率(probability)概率是从随机实验中的事件到实数域的函数,用以表示事件发生的可能性。如果用P(A)作为事件A的概率,Ω是实验的样本空间,则概率函数必须满足如下公理:公理1:P(A)≥0公理2:P(Ω)=1公理3:如果对任意的i和j(i≠j),事件Ai和Aj不相交(Ai∩Aj=Φ),则有条件概率(conditionalprobability)如果A和B是样本空间Ω上的
2、两个事件,P(B)>0,那么在给定B时A的条件概率P(A
3、B)为:条件概率P(A
4、B)给出了在已知事件B发生的情况下,事件A发生的概率。一般地,P(A
5、B)≠P(A).联合分布和边缘分布X和Y的联合概率函数为则(X,Y)关于X的边缘概率函数为(X,Y)关于Y的边缘概率函数为全概率公式设Ω为实验E的样本空间,B1,B2,…Bn为Ω的一组事件,且他们两两互斥,且每次实验中至少发生一个。即:则称B1,B2,…Bn为样本空间Ω的一个划分划分。全概率公式(2)设A为Ω的事件,B1,B2,…Bn为Ω的一个划分,且P(Bi)>0(i=1,2,…,n),则全概率公式为:贝叶斯法则(
6、Bayes’theorem)如果A为样本空间Ω的事件,B1,B2,…,Bn为Ω的一个划分,且P(A)>0,P(Bi)>0(i=1,2,…,n),那么贝叶斯法则(Bayes’theorem)-续用文字描述:后验概率=(似然函数*先验概率)/证据因子贝叶斯公式给出了‘结果’事件A已发生的条件下,‘原因’事件B的条件概率.对结果事件的任何观测都将增加这是我们对原因事件B的真正分布的知识贝叶斯决策理论(Bayesiandecisiontheory)假设研究的分类问题有c个类别,各类别的状态用wi表示,i=1,2,…,c;对应于各类别wi出现的先验概率为P(wi);在特征空间
7、已观察到某一向量是d维特征空间上的某一点,且条件概率密度函数)是已知的。那么,利用贝叶斯公式我们可以得到后验概率基于最小错误率的贝叶斯决策规则例:假设某一种特殊的句法结构很少出现,平均大约每100,000个句子中才可能出现一次。我们开发了一个程序来判断某个句子中是否存在这种特殊的句法结构。如果句子中确实含有该特殊句法结构时,程序判断结果为“存在”的概率为0.95。如果句子中实际上不存在该句法结构时,程序错误地判断为“存在”的概率为0.005。那么,这个程序测得句子含有该特殊句法结构的结论是正确的概率有多大?解:假设G表示事件“句子确实存在该特殊句法结构”,T表示事件
8、“程序判断的结论是存在该特殊句法结构”。那么,我们有:基于最小风险的贝叶斯决策规则最小风险贝叶斯决策可按下列步骤进行:(1)在已知P(ωi),P(X
9、ωi),i=1,…,c及给出待识别的X的情况下,根据贝叶斯公式计算出后验概率:j=1,…,x(2)利用计算出的后验概率及决策表,按式(2-14)计算出采取αi,i=1,…,a的条件风险,i=1,2,…,a(3)对(2)中得到的a个条件风险值R(αi
10、X),i=1,…,a进行比较,找出使条件风险最小的决策αk,则αk就是最小风险贝叶斯决策。期望(expectation)方差(variance)协方差与相关系数协方差:可以
11、衡量随机变量x与y之间的统计独立程度。任意两个随机变量X和Y的协方差,记为Cov(X,Y),定义为Cov(X,Y)=E{[X-E(X)][Y-E(Y)]=E(XY)-E(X)E(Y)相关系数定义:设D(X)>0,D(Y)>0,称二项式分布(binomialdistribution)二项式分布(binomialdistribution)在自然语言处理中,我们常常以句子为处理单位。一般地,我们假设一个语句独立于它前面的其它语句,句子的概率分布近似地认为符合二项式分布。正态分布其中和都是常数,任意,>0,则称X服从参数为和的正态分布.记作标准正态分布的正态分布称为标准正态
12、分布.其密度函数和分布函数常用和表示:3准则--三倍标准差原则由标准正态分布的查表计算可以求得,X~N(0,1)时,这说明,X的取值几乎全部集中在[-3,3]区间内,超出这个范围的可能性仅占不到0.3%.将上述结论推广到一般的正态分布,可以认为,Y的取值几乎全部集中在P(
13、X
14、1)=2(1)-1=0.6826P(
15、X
16、2)=2(2)-1=0.9544P(
17、X
18、3)=2(3)-1=0.9974区间内.概率密度估计的方法类的先验概率的估计:用训练数据中各类出现的频率估计依靠经验类条件概率密度估计的两种主要方法:参数估计:概率密度函数的形式已知,而表征函数的参数未知,