资源描述:
《词典与统计相结合的中文分词算法研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第32卷第6期武汉理工大学学报信息与管理工程版Vo.l32No.62010年12月JOURNALOFWUT(INFORMATION&MANAGEMENTENGINEERING)Dec.2010文章编号:1007-144X(2010)06-0907-03文献标志码:A词典与统计相结合的中文分词算法研究李宏波(武汉理工大学计算机科学与技术学院,湖北武汉430070)摘要:基于对算法的时间复杂度和分词精度的综合考虑,提出了一种分词词典和统计分析相结合的解决方案。该算法采用统计和机械分词相结合的策略,合理解决了歧义词和未登录词两大难题,实验证明分词效果比较理想。关键词:分词词典
2、;统计分析;未登录词;歧义词中图分类号:TK91DOI:10.3963/.jissn.1007-144X.2010.06.013中文分词是中文信息处理系统中非常重要的个难题,即歧义问题,机械分词也不能做出任何贡一部分,在汉语中词是最小的语言单位,要想处理献。机械分词有其自身的优点,只要是词典中存好句子层面的问题,就一定要先解决好词层面上在的词条,算法的分词准确率、分全率等分词精度的问题。虽然中文分词技术已经有了较大的发指标表现良好,分词效率也比较高。但是纯粹的展,但是,歧义处理和未登录词识别仍然是中文分机械分词并不能解决中文分词中的两大难题,歧[1][5-6]词的
3、两大难题。传统的分词策略首先利用机义识别和未登录词的识别。械分词的方法完成基本的分词处理,识别出词典1.2基于统计的分词方法中包含的词条,再根据基于统计的方法解决未被从形式上看,词是字的稳定组合。文本中如识别出的词条、包含歧义字段和未登录词。事实果两个字或多个字同时出现的频率达到一定程度证明,只有将机械分词和统计方法结合起来,才能时,就可以认为这种组合是一个词。字与字相邻[2-4]开发出比较完善的分词系统。笔者从分词效出现频率能够反映成词的可信度,这就是基于统率和分词精度两方面考虑提出一种词典与统计相计中文分词方法的核心思想。该方法只需对语料[7]结合的中文分词算法。中的字
4、组合频度进行统计,不需要切分词典。纯粹的基于统计的分词是有局限性的,虽然这种1传统的基于词典和基于统计的分词方法方法在一定程度上解决了歧义和未登录词问题,1.1基于词典的分词方法但该算法经常会抽取出一些组合频度相当大,却传统的基于词典的分词指的是基于字符串匹又不是词语的词条,例如这一!、之一!等。配的方法。按照待分文本的扫描方向和匹配词条2统计与词典相结合的分词方法的长短可将机械分词的方法分为4种:正向最大匹配、正向最小匹配、逆向最大匹配和逆向最小匹2.1系统架构图配。无论是何种匹配算法,其核心思想均是将待笔者所描述的系统是基于统计和词典相结合分析串和词典中的词条进行
5、匹配,将词典中存在的一种解决方案。通过两种方法的有机结合,有的词条分离出来。基于字符串匹配的算法以分词效地弥补了对方的缺点,使系统在分词精度和效词典为核心,算法简单,容易实现。由于汉语语率上有比较良好的表现。系统主要架构图如1所[8-10]法、词法的复杂性,使得基于字符串匹配的分词算示。法有先天劣势,新的词条不断出现,对这些词典中(1)对待分词文档进行预处理,去掉文档中并不存在的词条,不能识别;中文分词中的另外一的标点、英文字母等非汉字信息,用自定义分隔符收稿日期:2010-05-22.作者简介:李宏波(1984-),男,天津蓟县人,武汉理工大学计算机科学与技术学院硕士研究生
6、.908武汉理工大学学报信息与管理工程版2010年12月为临时词典和核心词典。其中,临时词典并不是分词的依据,存储在该词典中的是一些备选词汇,这些词汇中并不是所有的都能够进入核心词典,只有满足设计要求的词汇才会被移动到核心词典。核心词典是中文分词的唯一依据,其初始化状态包含了法定的常用词汇,随着分词系统的经验不断增加,核心词典中会自动加入更多的词汇,以保证分词的效果是动态的,并且朝着更好的方向发展。图1系统架构图根据对现代汉语构词特点的统计发现,单字词、两字词、3字词、多字词的概率分别为/!替代之;6.980%、50.034%、20.010%、22.976%。可见,(2)
7、将预处理的输出结果做词频统计处理的两字词占半数以上,又由于哈希查找方法是效率输入,对其进行词频信息统计,并将统计结果保存较高的查询算法。因此,核心词典采用二级哈希到临时词典文件中;结构存储,对词的前两个字建立哈希索引,这样有(3)对临时词典中的词条进行判断,将满足利于查找效率的提高。核心词典的数据结构如图条件的词条移动到核心词典中,并将该词条信息2所示。从临时词典中删除;(4)以更新后的核心词典中的词条为分词依据,进行逆向最大匹配算法分词,得到分词结果。2.2待分字符串的预处理由于分词过程复杂,待分字