一种中文分词词典新机制—双字哈希机制

一种中文分词词典新机制—双字哈希机制

ID:5379010

大小:481.46 KB

页数:11页

时间:2017-12-08

一种中文分词词典新机制—双字哈希机制_第1页
一种中文分词词典新机制—双字哈希机制_第2页
一种中文分词词典新机制—双字哈希机制_第3页
一种中文分词词典新机制—双字哈希机制_第4页
一种中文分词词典新机制—双字哈希机制_第5页
资源描述:

《一种中文分词词典新机制—双字哈希机制》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、中文信息学报第!"卷第#期!"#$%&’"()*+%,-,+%("$.&/+"%0$"),--+%1234$!"%3$#文章编号:!%%&’%%""((%%&)%#’%%!&’%)!一种中文分词词典新机制———双字哈希机制李庆虎,陈玉健,孙家广(清华大学计算机系,北京!%%%*#)摘要:汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制,并在此基础上根据汉语中双字词语较多的特点

2、提出了一种新的分词词典机制———双字哈希机制,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,提高了中文分词的速度和效率。关键词:计算机应用;中文信息处理;中文分词;双字哈希中图分类号:+,&-!.!文献标识码:/&%56789:83;<=>.59?<;8@AB3=)?8;5@5C3=D-5EA5;:<:83;012345678,9:;<=86>3?4,@A

3、QD3>345!%%%*#,9734?)&F@:=<9::9734DODRIFLOD5HD4G?G3I43OG7DEFDE?F?G3I4JIF9734DOD14JIFH?G3I4,FIKDOO345./OI4DS?O3KKIHEI4D4GIJ9734DODRIFLOD5HD4G?G3I4ONOGDHO,G7DL3KG3I4?FNHDK7?43OH34JM8D4KDOG7DOEDDL?4LDJJ3K3D4KNIJOD5HD4G?G3I4O3543J3K?4GMN.14G73OE?EDF,RDEFIP3LD?

4、4DRL3KG3I4?FNHDK7?43OH4?HDLLI8SMD6K7?F?KGDF67?O7634LDT345(C9:1).9IHE?FDLR3G7DT3OG345GNE3K?ML3KG3I4?FNHDK7?43OHO(3.D.S34?FN6ODDU6SN6RIFL,+V1;34LDT345GFDD?4LS34?FN6ODDU6SN6K7?F?KGDFO),C9:13HEFIPDOG7DOEDDL?4LDJJ3K3D4KNIJOD5HD4G?G3I4R3G7I8G34KFD?O345G7DOE?KD?

5、4LG3HDKIHEM3K?G3I4?4LH?34GD4?4KDL3JJ3K8MGN.G5>63=D@:KIHE8GDF?EEM3K?G3I4;9734DOD34JIFH?G3I4EFIKDOO345;9734DODRIFLOD5HD4G?G3I4;L3KG3I4?FNHDK7?643OH;LI8SMDK7?F?KGDF7?O734LDT345一、引言汉语自动分词是汉语信息处理的前提,广泛应用于中文全文检索、中文自动全文翻译、中文文语转换(++@)等领域。自动分词的基本算法主要分为两大类:基于词典的分词方

6、法[!,(]和基于频度统计的分词方法[),"]。具体应用时的不同算法则是二者不同程度的组合。基于词典的分词方法是以汉语词典为基础对中文语句通过匹配进行切分,这种方法主要包括&种基本算法[&]:正向最大匹配法、逆向最大匹配法、全切分法。正向最大匹配法(WWQ)的目的是把最长的词给切分出来。它首先假定最大词长度为0,从句首取长度为0的字串进行匹配,如果匹配成功则认为此字串为一个词,再从它的下一个字开始继续该过程;如果匹配不成功则去掉此字串的最后一个字进行匹配,直至匹配成功或子句为空。逆向最大匹配法(VWWQ)

7、的算法与WWQ的算法相同,只是切分方向为从右向左,而!收稿日期:(%%(’%)’!"基金项目:教育部专项基金资助项目((%%!Q/!%!/!(’%();-"&计划资助((%%(9Q&!(%%))作者简介:李庆虎(!-"-—),男,博士生,主要研究方向为数据库技术、网络计算、远程教育.!&且如果匹配不成功去掉的是第一个汉字,相当于先将被切分字串逐字反转形成新的字串再进行正向最大匹配。使用!""#与""#,是存在切分盲点的,并不能发现全部交叉歧义。全切分法则能够通过全归约过程得到所给字串的所有归约式,即它能够

8、得到所有可行的切分方案、消除切分盲点。不论是哪种基于词典的分词方法,分词词典的查询速度是匹配算法效率的直接决定因素,因而建立高效快速的分词词典机制势在必行[$]。本文首先简单描述了已有的分词词典机制,接着介绍了我们提出的新的词典机制———双字哈希索引结构(%&’()*+,-./.01*/+2.3-+456*7+859),最后对新的机制和已有的机制进行了比较和实验分析。二、已有词典机制文献[$]指出了三种典型的分词词典机制,下边

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。