汉语分词技术课件.ppt

汉语分词技术课件.ppt

ID:57006511

大小:327.00 KB

页数:34页

时间:2020-07-26

汉语分词技术课件.ppt_第1页
汉语分词技术课件.ppt_第2页
汉语分词技术课件.ppt_第3页
汉语分词技术课件.ppt_第4页
汉语分词技术课件.ppt_第5页
资源描述:

《汉语分词技术课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、汉语分词技术讨论会2007.8提纲1、基本概念2、汉语分词2.1基于字符串匹配的分词2.2概率统计的分词3、汉语分词的困难4、分词质量的评价什么是分词?找出字符串中的“词”汉字的编码常用的几种编码GB2312GBKUniCode从字符串到词串汉字的简繁转换?後面,皇后——后?松树,鬆开——松?文本校对(改错别字)?抛妻别字——抛妻别子(字音编码输入)?于预——干预(字形编码输入)?基于字的检索和基于词的检索?检索“人为”,可能输出的结果:人为因素、人为什么活着、以人为本、……从字符串到词串,是一个降低不确

2、定性的过程从字符串到词串(续)张店区大学生不看重大城市的户口本?张店区大学生不看重大城市的户口本?张店区大学生不看重大城市的户口本?你认为学生会听老师的吗?你认为学生会听老师的吗?你认为学生会听老师的吗?我家门前的小河很难过……从字符串到词串,存在着不确定性汉语词汇处理从字符串中识别出词(wordsegmentation)“分”词——“合”词分词的基本方法字符串匹配法(MaximumMatchbasedapproach)概率方法字符串最大匹配法流程图最大匹配法分词示例S1="计算语言学课程是三个课时"词语

3、…计算语言学课程课时…设定最大词长MaxLen=5S2=""最大匹配法分词示例(续)S2=“”;S1不为空,从S1左边取出候选子串W=“计算语言学”;查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/”,并将W从S1中去掉,此时S1=“课程是三个课时”;S1不为空,于是从S1左边取出候选子串W=“课程是三个”;查词表,W不在词表中,将W最右边一个字去掉,得到W=“课程是三”;查词表,W不在词表中,将W最右边一个字去掉,得到W=“课程是”;查词表,W不在词表中,将W最右边一个字去掉,得到

4、W="课程“查词表,W在词表中,将W加入到S2中,S2=“计算语言学/课程/”,并将W从S1中去掉,此时S1="是三个课时";最大匹配法分词示例(续)S1不为空,于是从S1左边取出候选子串W=“是三个课时”;查词表,W不在词表中,将W最右边一个字去掉,得到W=“是三个课”;查词表,W不在词表中,将W最右边一个字去掉,得到W=“是三个”;查词表,W不在词表中,将W最右边一个字去掉,得到W="是三“查词表,W不在词表中,将W最右边一个字去掉,得到W=“是”,这时W是单字,将W加入到S2中,S2=“计算语言学/

5、课程/是/”,并将W从S1中去掉,此时S1=“三个课时”;S1不为空,从S1左边取出候选子串W=“三个课时”;查词表,W不在词表中,将W最右边一个字去掉,得到W=“三个课”;查词表,W不在词表中,将W最右边一个字去掉,得到W=“三个”;查词表,W不在词表中,将W最右边一个字去掉,得到W=“三”,这时W是单字,将W加入到S2中,S2=“计算语言学/课程/是/三/”,并将W从S1中去掉,此时S1="个课时";最大匹配法分词示例(续)S1不为空,从S1左边取出候选子串W=“个课时”;查词表,W不在词表中,将W最

6、右边一个字去掉,得查词表,W不在词表中,将W最右边一个字去掉,得这时W是单字,将W加入到S2中,S2=“计算语言学三/个/”,并将W从S1中去掉,此时S1=“课时”;S1不为空,从S1左边取出候选子串W=“课时”;查词表,W在词表中,将W加入到S2中,S2=“计算是/三/个/课时/",并将W从S1中去掉,此时S1="“S1为空,输出S2作为分词结果,分词过程结束。最大匹配法分词的问题最大词长的确定(1)词长过短,长词就会被切错(“中华人民共和国”)(2)词长过长,效率就比较低?掩盖了分词歧义A.“有意见分

7、歧”(正向最大匹配和逆向最大匹配结果不同)有意/见/分歧/有/意见/分歧/B.“结合成分子时”(正向最大匹配和逆向最大匹配结果相同)结合/成分/子时/分词歧义的类型?交集型歧义如果AB和BC都是词典中的词,那么如果待切分字串中包含“ABC”这个子串,就必然会造成两种可能的切分:“AB/C/”和“A/BC/”。这种类型的歧义就是交集型歧义。比如“网球场”就可能造成交集型歧义(网球/场/:网/球场/)。?组合型歧义如果AB和A、B都是词典中的词,那么如果待切分字串中包含“AB”这个子串,就必然会造成两种可能的

8、切分:“AB/”和“A/B/”。这种类型的歧义就是组合型歧义。比如“个人”就可能造成组合型歧义((我)个人/:(三)个/人/)。链长:交集型歧义字段中含有交集字段的个数,称为链长。?链长为1:和尚未?链长为2:结合成分?链长为3:为人民工作?链长为4:中国产品质量?链长为6:努力学习语法规则?……?混合型歧义:这样的人才能经受住考验分词歧义的类型(续)双向最大匹配法可以发现链长为奇数的交集型歧义,但无法发现链长为偶数的交集型歧

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。