浅谈中文分词技术

浅谈中文分词技术

ID:46257227

大小:50.69 KB

页数:5页

时间:2019-11-22

浅谈中文分词技术_第1页
浅谈中文分词技术_第2页
浅谈中文分词技术_第3页
浅谈中文分词技术_第4页
浅谈中文分词技术_第5页
资源描述:

《浅谈中文分词技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、浅谈中文分词技术一个中文文木从形式上看是由汉字(包括标点符号等)组成的一个字符审。曲字可组成词,由词可组成句子,进而曲一些句子组成段、节、章、篇。口J见,如果需要处理一篇屮文语料,从屮正确的识别出词是一件非常基础而重要的工作。1.中文分词概述显而易见,中文以字为基本书写单位,词语之间没有明显的区分标记。中文分词就是由机器在词与词Z间加上标记进行区分。例如:输入:我足禽啖。输出:我/足/禽啖/。1.1中文分词的关键问题屮文分词的关键问题为:切分歧义消解和未登录词识别1.2歧义切分定义歧义切分的表示可以由下示例:输入待切分句了:提冬人氏笙话水年可以切分输出:提£/人头/或活/水年或者切分输出:提

2、/咅人/氏切话水/年明显第二个输出为歧义切分1.3未登录词定义常见的未登录词有实体名词、专有名词与新词实体名词包括冇:中国人名:孑素術老轮孑四壬二冻&中国地名:定福注白詢三丈拓祎村河马甸翻译人名:乔储•怖什叶利做包体利夫人滴井体3翻译地名:阿金卑斯山新奧金艮釣克那机构名:方正公司联想集团国陈2或伍狙外皱梆商标字号:殊纟可皋皋凯波导杪杪同仁童专业术语和新词语专业术语:万徭网金机祓樸态逻捅贝叶斯篇依缩略语:三个代素五讲四姜打假扫黄打猱计或办新词语:卡拉波波族莫刀港刀未登录词没有明确边界,缺少英语中的分隔符、大小写、词的形态、冠词等语法信息,识别比较困难。因此通常每一类未登录词都要构造专门的识别算

3、法。2.分词主要技术方法2.1基于词典的分词词典中一般存储着:词、词频、词性等信息,可以通过统计标注好的熟语料和常用词典得到。基于词典分词方法首先需要对句子进行原子切分,即找出句子中可能蕴含组成的所冇词,然后构成词图。述是Z前例子,输入:提老人民空活水年输出所有包扌舌的词:提T提由人T人氏丈今丈活活■>旖水则可以构成词图如下:上述工作主要重点是词典存储于并快速匹配,多采用双数组Tie树的方法生成词典树,用自动机匹配词串。2丄1词典分词的歧义消解问题歧义消解可以转换为对于上述在词图上寻找统计意义上的最佳路径。常用一元、二元模型进行基于一元模型进行评价:统计词表中每个词的词频,并将其转化为路径代

4、价C=-log(f/N)切分路径的代价为路径上所有词的代价之和寻求代价最小的路径。上述例子就是根据词典中v提宙〉V再人〉V人氏〉V民或>V望活><活水〉V水年><年〉这几个词的词频f,认为词频越高的路径代价越小,找出最短的路径。基于二元模型进行评价:相对于一元模型,二元模型还需要一个词传移统计词典,例如记录了V捉高〉衔接V人民〉的次数,词转移统计词典实质上是一个稀疏矩阵。基于二元模型进行评价需要在一元模型的基础上增加转移路径代价。词典中转移次数多的衔接认为该衔接转移路径代价小。计算方法可以用Viterbi算法。2.1.2词典分词的未登陆词问题简单来说,可以将未登陆词的识别转换成序列标注问题即

5、打标签,然后用HMM或其它统计学习方法求解。例如中国人名识别可以表示为(姓+名)的形式,例如对于一个人名:金三聊口J以正确标注序列为:金/就三孵/名,则人名可以识别出来。具体可参见张华平相关论文《基于层叠隐马尔可夫模型的屮文命名实体识别》、《基于角色标注的中国人名白动识别研究》、《基于角色标注的中文机构名识别》。2.2基于字的分词基于字的分词可以平衡的看待词表词和未登录词的识别问题。汉语屮词都是冇字组成的,可以将分词视为字的序列标注问题。例如对于“占”这个字可以有以下词位标注•词首B占领•词尾E抢占•词中M独占鳌头•单字词S已占全国基于字的分词实现很简单,例如对于句子上海/计划/到/本/世纪

6、/末/实现/人均/国内/生产/总值/五千美元/。可以有如下词位序列标注:上/B海/E计侶划/E到/S本/S世/B纪/E末/S实/B现/E人/B均/E国侶内/E生/B产/E总/B值/E五侶千/M美/M元/E。IS根据标注BMES实现了分词。转换成序列标注问题后常用算法冇HMM(隐马模型)、MEMM(最人爛隐马模型)、CRF等。下面简单比较一下:隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择。最大爛隐马模型则解决了隐马的问题,可以任意选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带來了标记偏见的问题,即凡是训练语料屮未出

7、现的情况全都忽略掉。条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。2.3主耍分词技术评价•基于词典的分词优点:速度快,效率高,易修改,灵活性强。•基于词典的分词缺点:主要依赖词典和规则库,对于歧义词和未登录词的识别能力较低。•基于字的分词的优点:对丁歧义词和未登录词的识别能力较好。•基于字的分词的缺点:(1)模型体积大占内存。例如一个可供

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。