资源描述:
《最新统计自然语言处理基本概念教学讲义PPT课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、统计自然语言处理基本概念模型真实世界中的系统模型1InputOutput模型2Output1Output2如果Output1总是和Ouput接近,Output2总是和Output偏离,我们就认为模型1比模型2好真实系统模型1模型2InputOutput试验(Experiment)试验一个可观察结果的人工或自然的过程,其产生的结果可能不止一个,且不能事先确定会产生什么结果例如连掷两次硬币样本空间是一个试验的全部可能出现的结果的集合举例连掷两次硬币={HH,HT,TH,TT},H:面朝上;T:面朝下事件(Event
2、)事件一个试验的一些可能结果的集合,是样本空间的一个子集举例:连掷两次硬币A:至少一次面朝上B:第二次面朝下A={HT,TH,HH},B={HT,TT}事件的概率事件的概率重复m试验,如果事件A出现的次数为n,则事件A的概率为P(A)=n/m,这称为概率的频率解释,或称统计解释频率的稳定性又称为经验大数定理举例:连掷两次硬币A:至少一次面朝上B:第二次面朝下P(A)=3/4,P(B)=1/2当试验不能重复时,概率失去其频率解释的含义,此时概率还有其他解释:贝叶斯学派和信念学派一个人出生时的体重,一个人只能出生一次
3、举例举例:连续三次掷硬币样本空间={HHH,HHT,HTH,HTT,THH,THT,TTH,TTT}事件A:恰好两次面朝下A={HTT,THT,TTH}做1000次试验,计数得386次为两次面朝下估计:P(A)=386/1000=0.386继续做7组试验,得:373,399,382,355,372,406,359,共8组试验计算平均值:P(A)=(0.386+0.373+…)/8=0.379,或累计:P(A)=(386+373+…)/8000=3032/8000=0.379统一的分布假设为:3/8=0.375概
4、率空间概率空间的三个公理P(A)0P()=1P(AB)=P(A)+P(B)ifAB=这三条公理也是概率的原始定义推论:P()=0;ABP(A)
5、cos(x)
6、就不是概率概率空间图示ABAB联合事件A和B两个事件的联合概率就是A和B两个事件同时出现的概率A和B的联合概率表示为:P(A,B)或P(AB)举例:连掷两次硬币事件A:第一次面朝上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}联合事件AB={HT}条件
7、概率在事件B发生的条件下事件A发生的概率P(A
8、B)=P(A,B)/P(B)P(A
9、B)=(c(A,B)/T)/(c(B)/T)=c(A,B)/c(B)c(A)代表事件A出现的次数,c(B)同理T是试验总次数举例:两次掷硬币问题事件A:第一次面朝上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}AB={HT}P(A
10、B)=1/2条件概率可以被视为从另外一个样本空间产生概率的乘法原理P(A,B)=P(A
11、B)P(B)=P(B
12、A)P(A)ChainRuleP(A1,A2,…,An)=P(A1)P
13、(A2
14、A1)P(A3
15、A1,A2)…P(An
16、A1,A2,…,An)举例1:词性标注P(det,adj,n)=P(det)P(adj
17、det)P(n
18、det,adj)举例2:计算一个句子的概率p(w1,w2,…,wn)=p(w1)p(w2
19、w1)……p(wn
20、w1…wn-1)独立和条件独立独立定义:P(A,B)=P(A)P(B)P(A
21、B)=P(A),P(B
22、A)=P(B)条件独立定义:P(A,B
23、C)=P(A
24、B,C)P(B
25、C)=P(A
26、C)P(B
27、C)P(A
28、B,C)=P(A
29、C),P
30、(B
31、A,C)=P(B
32、C)NaïveBaiysian:假定各特征之间条件独立P(A1,A2,…,An
33、B)=i=1,…,nP(Ai
34、B)避免一个错误:P(A
35、B,C)=P(A
36、B)P(A
37、C)独立和条件独立独立不意味着条件独立举例:色盲和血缘关系A:甲是色盲B:乙是色盲C:甲和乙有血缘关系P(A,B)=P(A)P(B)P(A,B
38、C)P(A
39、C)P(B
40、C)条件独立不意味着独立P(肺癌,买雪茄
41、吸烟)=P(肺癌
42、吸烟)P(买雪茄
43、吸烟)P(肺癌,买雪茄)P(肺癌)P(买雪茄)Bayes’Rule
44、根据乘法原理:P(A,B)=P(A)P(B
45、A)=P(B)P(A
46、B)得到贝叶斯原理:P(A
47、B)=P(A)P(B
48、A)/P(B)应用1argmaxAP(A
49、B)=argmaxAP(A)P(B
50、A)/P(B)=argmaxAP(A)P(B
51、A)应用2A1,A2,…,An是特征,B是结论P(B
52、A1,A2,…,An)=P(A1,A2,…,An
53、B)P(B)/P(A1,