欢迎来到天天文库
浏览记录
ID:41233809
大小:206.46 KB
页数:19页
时间:2019-08-20
《《汉语分词简介》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、汉语分词简介2011.12汉语分词1分词的定义中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。通俗的说,中文分词就是要由机器在中文文本中词与词之间加上标记。汉语分词2分词的意义正确的机器自动分词是正确的中文信息处理的基础◆文本检索和服
2、务
3、于三日后裁制完毕,
4、并呈送将军府中。王府饭店的设施
5、和
6、服务
7、是一流的。如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。◆文语转换他们是来
8、查
9、金泰
10、撞人那件事的。(“查”读音为cha)行侠仗义的
11、查金泰
12、远近闻名。(“查”读音为zha)◆词频统计(汉语中最常用的词是哪个?)◆句法分析、语义分析、机器翻译、语音合成、自动分类、自动摘要、自动校对等汉语分词3主要的分词方法(一)基于字符串匹配的分词方法:按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功。可以切分,否则不予切分。实现简单,实用性强,但机械分词法的最大的缺点就是词典的完备性不能得到保
13、证。a.正向最大匹配(由左到右的方向)b.逆向最大匹配法(由右到左的方向)c.最少切分(使每一句中切出的词数最小)d.双向匹配法(进行由左到右、由右到左两次扫描)汉语分词4正向最大匹配分词基本思想:设自动分词词典中最长词条所含汉字个数为I;取被处理材料当前字符串序数中的I个字作为匹配字段,查找分词词典。若词典中有这样的一个I字词,则匹配成功,匹配字段作为一个词被切分出来,转6;如果词典中找不到这样的一个I字词,则匹配失败;匹配字段去掉最后一个汉字,I--;重复2-4,直至切分成功为止;I重新赋初值,转2,直到切分出所有词为止。汉语分词5分析“市场/中国/有/企业/才能/发展/”对交叉歧义和组
14、合歧义没有什么好的解决办法错误切分率为1/169往往不单独使用,而是与其它方法配合使用汉语分词6逆向最大匹配分词分词过程与FMM方法相同,不过是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字“市场/中/国有/企业/才能/发展/实验表明:逆向最大匹配法比最大匹配法更有效,错误切分率为1/245汉语分词7双向匹配法比较FMM法与BMM法的切分结果,从而决定正确的切分可以识别出分词中的交叉歧义算法时间、空间复杂性较高汉语分词8主要的分词方法(二)基于理解的分词方法:通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语
15、义信息来处理歧义现象。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。汉语分词9主要的分词方法(三)基于统计的分词方法:基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词无词典分词法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字符串,如“这一”、“之一”以及“提供了”等等。在实际应用的统计分词系统中都要使用一部基本的分词词典(常用词词典)进行串匹配分词,即将字符串的词频统计和字符串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。汉
16、语分词10三种分词方法综述到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。例如,海量科技的分词算法就采用“复方分词法”,所谓复方,就是像中西医结合般综合运用机械方法和知识方法。对于成熟的中文分词系统,需要多种算法综合处理问题。汉语分词11分词面临的主要难题有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破:歧义词的识别和新词的识别汉语分词12切分歧义(1)交集型歧义对于汉字串AJB,AJ、JB
17、同时成词例:结合/成,结/合成美/国会,美国/会组合型歧义对于汉字串AB,A、B同时成词例:门/把手/坏/了,请/把/手/拿/开将来,现在,学生会混合型歧义同时包含交集型歧义和组合型歧义例:这样的/人/才能/经受住考验这样的/人才/能/经受住考验这样的/人/才/能/经受住考验中文文本中,交集型歧义与组合型歧义出现的比例约为1:22。汉语分词13切分歧义(2)真歧义歧义字段在不同的语境中确实有多种切分形式例:地
此文档下载收益归作者所有