一种快速中文分词词典机制

一种快速中文分词词典机制

ID:5385085

大小:434.76 KB

页数:9页

时间:2017-12-08

一种快速中文分词词典机制_第1页
一种快速中文分词词典机制_第2页
一种快速中文分词词典机制_第3页
一种快速中文分词词典机制_第4页
一种快速中文分词词典机制_第5页
资源描述:

《一种快速中文分词词典机制》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第26卷第5期中国科学院研究生院学报Vol.26No.52009年9月JournaloftheGraduateSchooloftheChineseAcademyofSciencesSeptember2009文章编号:100221175(2009)05207032093一种快速中文分词词典机制1,22•22吴晶晶荆继武聂晓峰王平建(1中国科学技术大学电子工程与信息科学系,合肥230027;2中国科学院研究生院信息安全国家重点实验室,北京100049)(2008年10月16日收稿;2009年4月21日收修改稿)WuJJ,JingJW,NieXF,etal.Fastdic

2、tionarymechanismforChinesewordsegmentation[J].JournaloftheGraduateSchooloftheChineseAcademyofSciences,2009,26(5):703~711.摘要通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率.关键词文本实时处理,中文分词,词典法分词,双字词-长词哈希机制中图分类号TP3

3、9111随着中文网络的大规模发展,包含中文信息的网络数据也快速膨胀.对于海量中文网络数据的实时分析处理成为新一代中文信息处理技术必须关注的问题.而作为中文信息处理基础的分词技术,已经被[1]广泛应用于中文信息检索、人机交互、信息提取、文本挖掘等领域中.成功的中文分词机制需要同时具有较高的词汇切分准确性和快速的词汇切分能力.其中,前者需要解决未登录词汇(out2of2vocabulary)识别和词汇歧义切分等难题,目前主要采用字符串频度统计,语料字[223]词标注等机器学习方法;而快速词汇切分能力是关系到整个中文信息处理系统,特别是实时处理类应用系统可用性的关键技术,

4、目前主要通过设计高效的分词词典机制来实现速度提升.此类快速分词机[4210]制一般基于传统的词典分词方法,依靠已有的特征词典作为文本切分匹配依据,设计简单,实现容易,算法效率很高,词典法分词机制中与分词速度相关的有2个要素:词典构造方法和词汇匹配方法,这2个方面相互关联.常见的词汇匹配方法有前向匹配、后向匹配、最大匹配、逐字匹配等.目前研究认为,采用前向最大[5]匹配是分词速度最高的匹配方法.本文不研究匹配方法造成的分词速度差异,主要通过研究不同词典的构造方法来实现高速的分词机制.文中第1部分简单描述了几种经典分词词典机制;第2部分详细介绍几种改进词典机制;在第3部

5、分介绍作者提出的一种快速中文分词词典构造机制:双字词和长词哈希索引机制(double2character2and2long2vocabulary2hash2indexing);第4部分通过分析和实验说明新体制与原有体制相比具有的优势.1传统词典机制最为典型的分词词典机制有以下3类:整词二分法、TRIE索引树法和逐字二分法.3国家高技术研究发展计划(863)(2006AA01Z454)、国家信息安全242计划(2005B23)和国家自然科学基金(60573015)资助•通讯联系人,E2mail:jjwu@is.ac.cn704中国科学院研究生院学报第26卷111整词二

6、分法的查询机制整词二分法的词典结构分为词典正文、词索引表、首字散列表等3级.通过首字散列表的哈希定位和词索引表,很容易确定指定词在词典正文中的可能位置范围,进而在词典正文中通过整词二分进行定位.基本的机制结构如图1.图1整词二分法的基本结构图112基于TRIE索引树的词典机制TRIE索引树是一种以树的多重链表形式表示的键树,基于TRIE索引树的词典机制由首字散列表和TRIE索引树结点2部分组成.TRIE索引树的优点是分词应用中,在对被切分语句的一次扫描过程中,不需预知待查询词的长度,沿着树链逐字匹配即可;基本的机制结构如图2(a)所示.113基于逐字二分法的查询机制

7、基于逐字二分法的查询机制是对前2种词典机制的改进方案,一方面,从组织结构上,逐字二分与整词二分的词典结构完全一样;另一方面,逐字二分吸收了TRIE索引树的查询优势,即采用的是“逐字匹配”,而不是整词二分的“全词匹配”,这在一定程度上提高了匹配的效率,如图2(b).图2TRIE索引树和逐字二分法词典结构图以上3种基本的词典机制是该方向研究中的经典机制,但他们的缺点也十分突出.整词二分法完全采用全词匹配的查询过程,效率明显较为低下;TRIE索引树法的构造和维护比较复杂,而且都是单词树枝,浪费了一定的空间;而逐字二分法由于采用的仍是整词二分的词典结构,虽然采用了较为高

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。