计算语言学讲义(06)词法分析(四)

计算语言学讲义(06)词法分析(四)

ID:5271133

大小:447.32 KB

页数:72页

时间:2017-12-07

计算语言学讲义(06)词法分析(四)_第1页
计算语言学讲义(06)词法分析(四)_第2页
计算语言学讲义(06)词法分析(四)_第3页
计算语言学讲义(06)词法分析(四)_第4页
计算语言学讲义(06)词法分析(四)_第5页
资源描述:

《计算语言学讲义(06)词法分析(四)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、计算语言学第6讲词法分析(四)刘群中国科学院计算技术研究所liuqun@ict.ac.cn中国科学院研究生院2011年春季课程讲义内容提要计算语言学讲义(06)词法分析(四)2基于字标注的中文词法分析•NianwenXueandLibinShen.2003.ChinesewordsegmentationasLMRtagging.InProceedingsoftheSecondSIGHANWorkshoponChineseLanguageProcessing,inconjunctionwithACL’03,p

2、ages176–179,Sapporo,Japan.计算语言学讲义(06)词法分析(四)3空挡标注•最简单的分词方案,可以理解为:对句子中每两个汉字之间的空挡判断是否进行切分费0孝0通1向1人0大1报0告费孝通向人大报告计算语言学讲义(06)词法分析(四)4字标注•对每一个汉字进行标注{B,M,E,S}:–B:词首字–M:词中字–E:词尾字–S:单字词费/B孝/M通/E向/S人/B大/E报/B告/E费孝通向人大报告计算语言学讲义(06)词法分析(四)5空挡标注与字标注的转换•上述两种标注是可以转换的:–字标

3、注可以通过该字左右的空挡标注得到:•B10•M00•E01•S11计算语言学讲义(06)词法分析(四)6更复杂的字标注•HaiZhao,Chang-NingHuang,andMuLi,AnImprovedChineseWordSegmentationSystemwithConditionalRandomField,ProceedingsoftheFifthSIGHANWorkshoponChineseLanguageProcessing(SIGHAN-5),pp.162-165,Sydney,Aus

4、tralia,July22-23,2006•采用基于字的六标注集合:B、B、B、M、E、S12–单字词:S–两字词:BE–三字词:BBE1–四字词:BBBE12–五字词:BBBME12–六字词:BBBMME12•问题:六字标注集如何表示为空挡标注?计算语言学讲义(06)词法分析(四)7字标注模型•字标注(或空挡标注)都是序列标注问题•理论上,字标注问题也可以采用语言模型或者隐马尔科夫模型来解决•但由于标记集太小,采用语言模型和隐马尔科夫模型很难取得很好的效果:语言模型和隐马尔科夫模型的区分能力太弱计算语言学

5、讲义(06)词法分析(四)8更复杂的字标注模型•最大熵模型•最大熵马尔科夫模型•条件随机场模型•感知机模型计算语言学讲义(06)词法分析(四)9最大熵原理•Berger,A.L.,DellaPietra,S.A.,DellaPietra,V.J.,(1996),AMaximumEntropyApproachtoNaturalLanguageProcessing,ComputationalLinguistics,Volume22,No.1•自然语言处理的最大熵模型,常宝宝,北京大学•自然语言处理中的最大熵方法

6、(PPT讲义),马金山,哈尔滨工业大学信息检索研究室(本讲义部分内容源自马金山PPT,特此感谢)计算语言学讲义(06)词法分析(四)10什么是熵•什么是熵?没有什么问题在科学史的进程中曾被更为频繁地讨论过普里高津•熵定律是自然界一切定律中的最高定律里夫金&霍华德计算语言学讲义(06)词法分析(四)11熵的提出•热力学第二定律(SecondLawofThermodynamics)认为:物理过程总是自发地从有序走向无序,最后达到“热寂”。•德国物理学家克劳修斯(RudolphJ.Eclausius)从热力学第二

7、定律出发,于1865提出熵的概念用来描述一个系统的无序度(ladegrédedésordre)。因此热力学第二定律又被称为“增熵原理”,即系统的演进总是指向熵增加的方向。•克劳修斯的熵概念这是在热力学角度提出的,之后被Boltzmann通过统计物理学的角度重新诠释。计算语言学讲义(06)词法分析(四)12熵与信息•熵表示了一个系统的不确定性•信息可以理解为事件不确定性的减少–原来不确定的事情现在确定下来,就是获得了信息–原来不确定性越大的事情发生了,获得的信息越多•狗咬人不是新闻,人咬狗才是新闻计算语言学讲

8、义(06)词法分析(四)13信息熵•1948年电气工程师香农(Shannon)创立了信息论,将信息量与熵联系起来。•他用非常简洁的数学公式定义了信息时代的基本概念:信息熵计算语言学讲义(06)词法分析(四)14随机事件的熵熵定量的描述事件的不确定性设随机变量ξ,它有A1,A2,…,An共n个可能的结局,每个结局出现的机率分别为p,p,...,12p则ξ的不确定程度,即信息熵为:nnH()x=-åpilogpi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。