构造汉语的统计计算语言模型

构造汉语的统计计算语言模型

ID:250890

大小:170.00 KB

页数:45页

时间:2017-07-14

构造汉语的统计计算语言模型_第1页
构造汉语的统计计算语言模型_第2页
构造汉语的统计计算语言模型_第3页
构造汉语的统计计算语言模型_第4页
构造汉语的统计计算语言模型_第5页
资源描述:

《构造汉语的统计计算语言模型》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、汉语分词汉语分词1主要内容分词歧义分词规范主要分词方法生词识别汉语分词2分词的提出和定义汉语文本是基于单字的,汉语的书面表达方式也是以汉字作为最小单位的,词与词之间没有显性的界限标志,因此分词是汉语文本分析处理中首先要解决的问题添加合适的显性的词语边界标志使得所形成的词串反映句子的本意,这个过程就是通常所说的分词汉语分词3分词的意义正确的机器自动分词是正确的中文信息处理的基础文本检索和服

2、务

3、于三日后裁制完毕,并呈送将军府中。王府饭店的设施

4、和

5、服务

6、是一流的。如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。文语转换他们是来

7、查

8、金泰

9、

10、撞人那件事的。(“查”读音为cha)行侠仗义的

11、查金泰

12、远近闻名。(“查”读音为zha)汉语分词4分词面临的主要难题如何面向大规模开放应用是汉语分词研究亟待解决的主要问题如何识别未登录词如何低廉地获取语言学知识词语边界歧义处理实时性应用中的效率问题汉语分词5分词歧义交集型切分歧义组合型切分歧义汉语分词6交集型切分歧义汉字串AJB被称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。[例]“结合成分子”结合

13、成分

14、子

15、结合

16、成

17、分子

18、结

19、合成

20、分子

21、[例]“美国会通过对台售武法案”[例]“乒乓球拍

22、卖完了”汉语分词7组合型切分歧义汉字串AB被称作组合型切分歧义,如果满足条件:A、B、AB同时为词[例]组合型切分歧义:“起身”他站

23、起

24、身

25、来。他明天

26、起身

27、去北京。汉语分词8“真歧义”和“伪歧义”真歧义指存在两种或两种以上的可实现的切分形式,如句子“必须/加强/企业/中/国有/资产/的/管理/”和“中国/有/能力/解决/香港/问题/”中的字段“中国有”是一种真歧义伪歧义一般只有一种正确的切分形式,如“建设/有”、“中国/人民”、“各/地方”、“本/地区”等汉语分词9未登录词虽然一般的词典都能覆盖大多数的词语,但有相当一部分的词语不可能穷尽地

28、收入系统词典中,这些词语称为未登录词或新词分类:专有名词:中文人名、地名、机构名称、外国译名、时间词重叠词:“高高兴兴”、“研究研究”派生词:“一次性用品”与领域相关的术语:“互联网”汉语分词10分词规范词是自然语言的一种客观存在汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异汉语信息处理现在需要制订统一的分词标准,否则将严重影响计算机的处理《信息处理用现代汉语分词规范及自动分词方法》:结合紧密、使用频繁汉语分词11具体的分词标准实例二字或三字词,以及结合紧密、使用稳定的:发展可爱红旗对不起自行车青霉素四字成

29、语一律为分词单位:胸有成竹欣欣向荣四字词或结合紧密、使用稳定的四字词组:社会主义春夏秋冬由此可见五字和五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分:时间/就/是/生命/失败/是/成功/之/母汉语分词12具体的分词标准实例结合紧密、使用稳定的词组则不予切分:不管三七二十一惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位:妇女能顶/半边天/他真小气,象个/铁公鸡/略语一律为分词单位:科技奥运会工农业分词单位加形成儿化音的“儿”:花儿悄悄儿玩儿汉语分词13具体的分词标准实例阿拉伯数字等,仍保留原有形式:12347890现

30、代汉语中其它语言的汉字音译外来词,不予切分:巧克力吉普不同的语言环境中的同形异构现象,按照具体语言环境的语义进行切分:把/手/抬起来这个/把手/是木制的汉语分词14常见的动词分词规范动词前的否定副词一律单独切分:不/写不/能没/研究未/完成用肯定加否定的形式表示疑问的动词词组一律切分,不完整的则不予切分:说/没/说看/不/看相信/不/相信动宾结构的词或结合紧密、使用稳定的:开会跳舞解决/吃饭/问题孩子该/念书/了结合不紧密或有众多与之相同结构词组的动宾词组一律切分:吃/鱼学/滑冰写/信汉语分词15常见的动词分词规范动宾结构的词或词组如中间插入其

31、它成分,则应予切分:吃/两/顿/饭跳/新疆/舞动补结构的二字词或结合紧密、使用稳定的二字动补词组,不予切分:打倒提高加长做好“2十1,1”或“1十2”结构的动补词组一律切分:整理/好说/清楚解释/清楚打/得/倒提/不/高偏正结构的词,以及结合紧密的词不予切分:胡闹瞎说死记汉语分词16常见的动词分词规范复合趋向动词一律为分词单位:出去进来当插入“得、不”时应予切分:出/得/去进/不/来动词与趋向动词结合的词组一律切分:寄/来跑/出去多字动词无连词并列,一律切分:调查/研究宣传/鼓动汉语分词17主要的分词方法简单的模式匹配:正向最大匹配、逆向最大匹

32、配法、双向匹配法基于规则的方法:最少分词算法基于统计的方法:统计语言模型分词、串频统计和词形匹配相结合的汉语自动分词、无词典分词汉语分词18正向最大匹

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。