关于中文分词一席谈-public

关于中文分词一席谈-public

ID:42399564

大小:392.96 KB

页数:42页

时间:2019-09-14

关于中文分词一席谈-public_第1页
关于中文分词一席谈-public_第2页
关于中文分词一席谈-public_第3页
关于中文分词一席谈-public_第4页
关于中文分词一席谈-public_第5页
资源描述:

《关于中文分词一席谈-public》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中文分词一席谈langiner@gmail.com内容提要中文分词概述分词技术发展国际分词评测分词技术总结中文分词概述什么是分词?分词就是利用计算机识别出文本中词汇的过程。比如句子“内塔尼亚胡说的确实在理”中文分词概述(Cont.)分词作用互联网绝大多数应用都需要分词,典型应用实例汉字处理:拼音输入法、手写识别、简繁转换…信息检索:Google、Baidu…内容分析:机器翻译、广告推荐、内容监控…语音处理:语音识别、语音合成……中文分词概述(Cont.)分词难点歧义无处不在交叉歧义(多种切分交织在一起)内塔内亚胡

2、说的/确实/在理组合歧义(不同情况下切分不同)这个人/手上有痣我们公司人手真歧义(几种切分都可以)乒乓球拍/卖/完了乒乓球/拍卖/完了中文分词概述(Cont.)分词难点新词层出不穷人名、地名、机构名刘德华长坂坡耀华路网名你是我的谁旺仔小馒头公司名、产品名摩托罗拉谷歌爱国者腾讯网易新浪诺基亚C5尼康D700中文分词概述(Cont.)分词难点普通词与新词互用高明表演真好(演员)/他的表演很高明汪洋(广东省长)到深圳检查工作/洞庭湖一片汪洋普通词与新词交织在一起克林顿对内塔尼亚胡说胡锦涛听取龚学平等同志的汇报中文分词概

3、述(Cont.)分词难点(需要重新处理)需求多种多样切分速度:搜索引擎VS单机版语音合成结果呈现:切分粒度要求不同:机器翻译VS搜索引擎分词重点要求不同:语音合成VS搜索引擎唯一结果VS多结果:语音合成VS搜索引擎新词敏感度不同:语音合成VS搜索引擎处理对象:书面文本(规范/非规范)VS口语文本硬件平台:嵌入式VS单机版VS服务器版内容提要中文分词概述分词技术发展国际分词评测分词技术总结分词技术发展机械分词(查词典)北京航天航空大学梁南元教授提出,典型算法有:FMM/BMM全切分统计分词产生式统计分词判别式统计分

4、词理解分词仅仅是人们期望,不能投入实用机械分词实例小沈阳演出收入分成均为9:1FMM:小沈阳/演出/收入/分成/均/为/9:1(正确)BMM:小沈阳/演出/收入/分成/均/为/9:1(正确)小沈阳演出收入分成都是9:1BMM:小沈阳/演出/收入/分成/都/是/9:1(正确)FMM:小沈阳/演出/收入/分/成都/是/9:1(错误)词典小沈阳沈阳演出分成成都都均为是9:1FMM/BMM:把句子从左向右(从右向左)扫描一遍,遇到字典里有的最长词就标识出来,遇到不认识的字串就分割成单字词。机械分词(Cont.)内塔尼亚胡

5、胡说说的的确确实实在在理词典实例内塔尼亚胡说的确实在理FMM:内塔尼亚胡/说/的确/实在/理(错误)BMM:内塔尼亚/胡说/的/确实/在理(错误)机械分词(Cont.)全切分:获得文本所有可能的切分结果,得到所有切分单元机械分词(Cont.)优点程序简单易行,开发周期短没有任何复杂计算,分词速度快不足不能处理歧义不能识别新词分词精度不能满足实际的需要(规范文本80%,互联网文本在70%左右)统计分词生成式统计分词判别式统计分词生成式分词原理首先建立学习样本的生成模型,再利用模型对预测结果进行间接推理两个假设前提马

6、尔可夫假设当前状态出现的概率仅同过去有限的历史状态有关,而与其他状态无关。具体到分词任务,就是文本中第i个词出现的概率仅仅依赖于它前面的i-1个词,而与其他词无关。输出独立性假设当前状态的输出仅仅取决于当前状态本身,而与其他状态无关。生成式分词(Cont.)NaïveN-gram分词模型学习过程(利用MLE估计)P(wt

7、wt-1)=(Count(wt,wt-1))/Count(wt-1)分词过程W:分词结果O:待分词文本生成式分词(Cont.)学习素材句子切分结果分词知识库产生式学习算法产生式切分算法分词词典生

8、成式分词(Cont.)分词过程实例第一步:全切分生成式分词(Cont.)第二步:Viterbi动态规划,找到贯穿句子的路径并计算每条路径的概率P1=P(他

9、说)*P(说

10、的)*P(的

11、确实)*P(确实

12、在理)*P(在理

13、$End)P2=P(他

14、说)*P(说

15、的确)*P(的确

16、实在)*P(实在

17、理)*P(理

18、$End)第三步:选择概率最大的路径为切分结果生成式分词(Cont.)Class-basedNgramNgram分词评价能够处理大多数常用词带来的歧义问题不能处理新词以及新词带来的歧义问题解决之道:Class-

19、basedNgram在统一的框架下进行分词与新词识别将词分为若干类词典词:教师(词典处理)仿词:2000年(规则处理)新词:范路(基于类的新词识别)形态词:高高兴兴(规则处理)不同类型的词用不同处理方法,最后利用Ngram框架寻找全局最优切分结果生成式分词(Cont.)给定字符串S=s1s2…sn,找最优的类序列C=c1c2…cm使得P(C

20、S)最大学习过程学习类的上下文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。