统计自然语言处理基本概念

统计自然语言处理基本概念

ID:40404991

大小:479.50 KB

页数:72页

时间:2019-08-01

统计自然语言处理基本概念_第1页
统计自然语言处理基本概念_第2页
统计自然语言处理基本概念_第3页
统计自然语言处理基本概念_第4页
统计自然语言处理基本概念_第5页
资源描述:

《统计自然语言处理基本概念》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、统计自然语言处理基本概念模型真实世界中的系统模型1InputOutput模型2Output1Output2如果Output1总是和Ouput接近,Output2总是和Output偏离,我们就认为模型1比模型2好真实系统模型1模型2InputOutput模型由体系结构和参数两部分构成举例:住宅楼多层板楼高层板楼高层塔楼参数层数:户型:三室一厅,两室一厅,……举架高度:供热方式:地热?暖气片?目录样本空间(SampleSpace)估计器(Estimator)和随机过程(StochasticProcess)信息论(InformationTheory)数据

2、集分类(DataSetClassification)性能评价(PerformanceMeasure)样本空间(SampleSpace)试验(Experiment)试验一个可观察结果的人工或自然的过程,其产生的结果可能不止一个,且不能事先确定会产生什么结果例如连掷两次硬币样本空间是一个试验的全部可能出现的结果的集合举例连掷两次硬币={HH,HT,TH,TT},H:面朝上;T:面朝下事件(Event)事件一个试验的一些可能结果的集合,是样本空间的一个子集举例:连掷两次硬币A:至少一次面朝上B:第二次面朝下A={HT,TH,HH},B={HT,TT}事

3、件的概率事件的概率重复m试验,如果事件A出现的次数为n,则事件A的概率为P(A)=n/m,这称为概率的频率解释,或称统计解释频率的稳定性又称为经验大数定理举例:连掷两次硬币A:至少一次面朝上B:第二次面朝下P(A)=3/4,P(B)=1/2当试验不能重复时,概率失去其频率解释的含义,此时概率还有其他解释:贝叶斯学派和信念学派一个人出生时的体重,一个人只能出生一次举例举例:连续三次掷硬币样本空间={HHH,HHT,HTH,HTT,THH,THT,TTH,TTT}事件A:恰好两次面朝下A={HTT,THT,TTH}做1000次试验,计数得386次为两

4、次面朝下估计:P(A)=386/1000=0.386继续做7组试验,得:373,399,382,355,372,406,359,共8组试验计算平均值:P(A)=(0.386+0.373+…)/8=0.379,或累计:P(A)=(386+373+…)/8000=3032/8000=0.379统一的分布假设为:3/8=0.375概率空间概率空间的三个公理P(A)0P()=1P(AB)=P(A)+P(B)ifAB=这三条公理也是概率的原始定义推论:P()=0;ABP(A)

5、:

6、cos(x)

7、就不是概率概率空间图示ABAB联合事件A和B两个事件的联合概率就是A和B两个事件同时出现的概率A和B的联合概率表示为:P(A,B)或P(AB)举例:连掷两次硬币事件A:第一次面朝上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}联合事件AB={HT}条件概率在事件B发生的条件下事件A发生的概率P(A

8、B)=P(A,B)/P(B)P(A

9、B)=(c(A,B)/T)/(c(B)/T)=c(A,B)/c(B)c(A)代表事件A出现的次数,c(B)同理T是试验总次数举例:两次掷硬币问题事件A:第一次面朝上,A={HH,

10、HT}事件B:第二次面朝下,B={HT,TT}AB={HT}P(A

11、B)=1/2条件概率可以被视为从另外一个样本空间产生概率的乘法原理P(A,B)=P(A

12、B)P(B)=P(B

13、A)P(A)ChainRuleP(A1,A2,…,An)=P(A1)P(A2

14、A1)P(A3

15、A1,A2)…P(An

16、A1,A2,…,An)举例1:词性标注P(det,adj,n)=P(det)P(adj

17、det)P(n

18、det,adj)举例2:计算一个句子的概率p(w1,w2,…,wn)=p(w1)p(w2

19、w1)……p(wn

20、w1…wn-1)独立和条件

21、独立独立定义:P(A,B)=P(A)P(B)P(A

22、B)=P(A),P(B

23、A)=P(B)条件独立定义:P(A,B

24、C)=P(A

25、B,C)P(B

26、C)=P(A

27、C)P(B

28、C)P(A

29、B,C)=P(A

30、C),P(B

31、A,C)=P(B

32、C)NaïveBaiysian:假定各特征之间条件独立P(A1,A2,…,An

33、B)=i=1,…,nP(Ai

34、B)避免一个错误:P(A

35、B,C)=P(A

36、B)P(A

37、C)独立和条件独立独立不意味着条件独立举例:色盲和血缘关系A:甲是色盲B:乙是色盲C:甲和乙有血缘关系P(A,B)=P(A)P(B)P(A

38、,B

39、C)P(A

40、C)P(B

41、C)条件独立不意味着独立P(肺癌,买雪茄

42、吸烟)=P(肺癌

43、吸烟)P(买雪茄

44、吸烟)P

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。