07-2词法分析

07-2词法分析

ID:37692405

大小:353.18 KB

页数:23页

时间:2019-05-28

07-2词法分析_第1页
07-2词法分析_第2页
07-2词法分析_第3页
07-2词法分析_第4页
07-2词法分析_第5页
资源描述:

《07-2词法分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第四节词性标注与兼类词•关于汉语词性关于汉语词性•英语的词性•英语的词性主要是由词的变化形式决定的•英语的词性与词的句法功能存在着比较明确的一一对应关系•汉语的词性•汉语词几乎没有形态变化•汉语词性与所充当的语法功能不存在明确的一一对应关系•问题:如何确定汉语的词性?词性判定的依据只能是句法功能;同一个词在充当不同句子成分时词性不发生变化。••••汉语词性标记集汉语词性标记集•几个典型的词性标记集–北京大学《人民日报》语料库标记集–清华大学《汉语树库》词性标记集–语用所《信息处理用现代汉语词类及词性标记集规范》–宾州树库规范–计算所词性标记集(V3.0)–信息处理用现代汉语词类

2、标记规范GB/T20532-2006•参考:词性标记集对照表•语法体系——词性标记集的确定•一词多类现象Timeflieslikeanarrow.Time/n-v-aflies/v-nlike/p-van/Detarrow/n把这篇报道编辑一下把/q-p-v-n这/r篇/q报道/v-n编辑/v-n一/m-c下/f-q-v•如果一个词只有一个词性,就直接标上该词性标记;如果有多个词性,就面临选择问题。所以词性自动标注,主要就是要解决如何判定兼类词在具体语境中词性的问题。•词的兼类现象词的兼类现象•汉语兼类词所占比例情况兼类数兼类词例数百分比例词及词性标记530.01%和c-n-p

3、-q-v4200.04%光a-d-n-v31260.23%画n-q-v214752.67%锁n-v合计16242.94%总词数:55191数据来源:北大计算语言所《现代汉语语法信息词典》1997年版•兼两类的兼类词示例第7章词法分析-223_1兼类词数百分比例词n-v61342%爱好,把握,报道a-n745%本分,标准,典型a-v21715%安慰,保守,抽象b-d1037%长期,成批,初步n-q644%笔,刀,口a-d302%大,老,真合计110175%兼两类词数:1475•常见兼类词示例词词性1:概率词性2:概率词性3:概率词性4:概率把p:0.96q:0.03v:0.01m

4、:0.00被p:1.00Ng:0.00并c:0.86d:0.14次q:1.00Bg:0.00从p:1.00Vg:0.00大a:0.92d:0.08到v:0.80p:0.20得u:0.76v:0.24e:0.00等u:0.98v:0.02q:0.00地u:0.89n:0.11对p:0.98v:0.01q:0.01a:0.00就d:0.87p:0.13c:0.00以p:0.84c:0.11j:0.05由p:1.00v:0.00在p:0.95d:0.02v:0.02从上面这些表可见:1,兼类词在汉语词汇中比例较小(2.94%)2,常用兼类词比例高;3,大部分兼类词在整个词汇中的比例并

5、不很高,但由于在常用词中比例较高,因而对句法分析效果影响很大。•英语中兼类现象(fromBrowncorpus)兼类数兼类词例数135,34023,760词型10.4%3264词例40%4615126271合计39,440第7章词法分析-223_2•词性标注方法回顾词性标注方法回顾序号作者/标注项目标记集方法,特点处理语料规模精确率1Klein&Simmons30手工规则百科全书90%(1963)人工规则小样本2TAGGIT86人工规则Brown语料库77%(Greene&Rubin,1971)(3300条)3CLAWS(Marshall,1983;130概率方法LOB语料库9

6、6%Booth,1985)效率低4VOLSUNGA97概率方法Brown语料库96%(DeRose,1988)效率高5EricBrill'sTrainable48机器学习规则UPennWSJ语料库97%rule-based(447条)tagger(1992-94)效率高•规则方法进行词性标注示例规则方法进行词性标注示例@@信(n-v)CONDITIONFIND(L,NEXT,X){%X.yx=的

7、封

8、写

9、看

10、读}SELECTnOTHERWISESELECTv-n@@一边(c-s)CONDITIONFIND(LR,FAR,X){%X.yx=一边}SELECTcOTHERWISES

11、ELECTs•词性标注问题词性标注问题:::寻找最优路径:寻找最优路径vpnnmqqrqnvvcfv把这篇报道编辑一下4×1×1×2×2×2×3=96种可能性,哪种可能性最大?第7章词法分析-223_3第五节隐马尔可夫模型5.15.1马尔可夫模型5.1马尔可夫模型•X=(XXX,,,...)123•马尔可夫过程假设(马尔可夫马尔可夫模型的性质)•有限视野有限视野(((从(从从从XtXtXtXt到到到到XtXtXtXt+1+1+1+1的转换只依赖于的转换只依赖于XtXtXt)Xt)))PX(t

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。