资源描述:
《一种基于lucene的中文分词的设计与测试》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中图分类号:TP391文献标识码:A文章编号:1009-2552(2010)12-0050-05一种基于Lucene的中文分词的设计与测试王志嘉,薛质(上海交通大学信息安全工程学院,上海200030)摘要:设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力。整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更高效率和准确度的中文分词功能。在系统评测方面
2、,通过实验仿真比较了该模块与StandardAnalyzer和CJKAnalyzer在功能和效率上的差异。对于如何构建一个高效的中文检索系统,提出了一种实现方案。关键词:中文分词;搜索引擎;Lucene;正向最大匹配算法AdesignandtestofChinesewordsegmentationbasedonLuceneWANGZhijia,XUEZhi(CollegeofInformationSecurity,ShanghaiJiaotongUniversity,Shanghai20003
3、0,China)Abstract:ThispaperdesignsandimplementsaChinesewordssegmentationmodule,whichmainlydealswithChinesewordstoimprovetheabilityoffulltextsearchsystem.ThewholemodulebasedonthemostwidelyusedarchitectureLucene,andcombinesthemaximummatchingalgorithmand
4、optimizedChinesewordsdictionarytoachieveahighefficiencyandaccuracyofChinesewordssegmentation.ThepaperalsocomparesthemodulewithStandardAnalyzeandCJKAnalyzerinfunctionandefficiencybytheexperimen,tandbringsforwardaimplementationabouthowtoconstructahighe
5、fficiencyChinesesearchingsystem.Keywords:Chinesewordsegmentation;searchengine;Lucene;forwardsmaximummatchalgorithm0引言处理中文信息,而其对中文信息的处理结果也直接互联网舆情检索系统的核心是建立基于有检索影响到搜索结果和搜索效率。所以,中文分词技术意义的字或词的索引。以词为单位建立索引需要对便成了中文搜索引擎中的关键技术之一。爬虫所爬取的原始文档进行分词处理,这种索引技1基于Lu
6、cene的中文分词术在中文语境中的实现难点就是分词,分词需要词Lucene是Apache软件基金会Jakarta项目组的典和分词规则的支持,这两项都是目前研究的技术成员项目,是一个开源的全文检索引擎工具包。它重点。不是一个完整的全文搜索引擎,而是一个用JAVA当搜索引擎技术应用于中文信息资源处理时,语言实现的自由和开放的全文检索引擎的构架,它由于中文语言与英文语言在体系及结构方面的较大提供了灵活的API函数和可以定制的数据存储结差异,不能简单使用英文的分词技术对中文文本进构,可以方便地嵌入到各种
7、应用中实现具体的全文行分词。主要差异体现在中文词语由单个汉字按一检索功能。Lucene在集成到应用程序中时,须根据定的规则组成,中文汉字与英文字母在标准编码规应用程序的需要设计索引数据结构,调用Lucene则上有所不同,中文词语的组成随着语境和语义的收稿日期:2010-05-17不同而变化等等。因此,搜索引擎需要采用一种与作者简介:王志嘉(1980-),男,上海交通大学信息安全工程学院处理英文信息所不同的处理方式即中文分词技术来研究生,研究方向为内容安全。50[1]表3中文姓名数据表提供的
8、各种接口实现全文检索的功能。但目前最新版本的Lucene中还没有成熟的中艾安熬巴白文分词模块,集成在2.0以后版本中的CJKAnalyser22222只提供中文单字和双字分词机制,这两种中文分词柏包贝毕薄机制并不能很好地支持Lucene中文分析处理,且工22222作效率和质量较为低下。表4常用译名数据表为此,本文系统采用基于字典的中文正向最大阿埃艾安奥匹配分词算法及其所适用的词表,再根据Lucene中11111语言分析器的结构,设计并实现了基于Lucene的中巴白拜班邦文分词模