nutch中文分词的设计与实现

nutch中文分词的设计与实现

ID:33619735

大小:332.44 KB

页数:6页

时间:2019-02-27

nutch中文分词的设计与实现_第1页
nutch中文分词的设计与实现_第2页
nutch中文分词的设计与实现_第3页
nutch中文分词的设计与实现_第4页
nutch中文分词的设计与实现_第5页
资源描述:

《nutch中文分词的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据第26卷第4期阿悖弘方净酶学霖(自然科学版)v。1.26N。.42010年8月JournalofHebeiNorthUniversity(NaturalScienceEdition)Aug.2010Nutch中文分词的设计与实现张敏,杜(河北北方学院信息科学与工程学院,华河北张家口075000)摘要:面对与日俱增的中文信息检索需求。Nuteh作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nuteh是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文分词技术进行研究的基础上,设计并实现了具有中

2、文分词功能和新词识别功能的分词器,在Nutch中实现了中文分词功能.实验测试结果表明,算法的分词效果能够达到预期的中文分词的要求.关键词:搜索引擎;中文分词;分词器;Nutch中图分类号:TP391.1文献标识码:A文章编号:1673—1492(2010)04-0053-04DesignandImplementationofChineseWordSegmentationinNutchZHANGMin,DUHua(CollegeofInformationScienceandEngineering,HebeiNorthUniversity,Zhangjiakou075000,Hebei,

3、China)AbstractFacedwithgrowingdemandofChineseinformationretrieval,Nutchasaplatformofopensourcesearchengineisfavoredbymanydevelopers.NutchisbasedontheEnglishsystem,withoutthecapacityofChinesewordsegmentation,SOithasaverypracticalsignificanceforrealizingtheChinesesearchenginetoresearchChineseword

4、sintheapplicationofNutch.BasedonthestudyofChinesewordsegmentation,aword—dividingmachinewiththefunctionofChinesewordsegmentationandrecognizingnewword,isdesignedandimplementedforthefunctionofChinesewordsegmentationinNutch.Experi-mentalresultsshowthattheeffectofthesegmentationalgorithmcanachieveth

5、edesiredChinesewordre—quirements.Keywords:searchengine;Chinesewordsegmentation;word—dividingmachine;Nutch随着Internet应用的日益普及,搜索引擎作为提供资源检索服务的工具已经成为人们通过网络获取信息的重要渠道,正在深刻影响着我们的生活[1].CNNIC公布的最新数据显示:2009年,搜索引擎的使用率为73.3%,是我国第三大互联网应用[2],将成为我国今后互联网应用的主流.研究中文搜索引擎必须实现的关键技术之一就是中文分词.现有的分词算法分为三大类:基于字符串匹配的分词方法、

6、基于统计的分词方法和基于理解的分词方法[3].其中,基于字符串匹配的分词方法,又称为机械分词方法,它具有分词效率高、算法实现简单的特点.这种分词方法可以分为正向匹配和逆向匹配.其中最常用的是正向最大匹配和逆向最大匹配.基于统计的分词方法按照文本中字串出现的频率进行统计,这种方法虽能有效地识别新词,但效率没有机械分词方法高,并且对常用词的识别精度差、开销大.基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果.由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段‘“].Nutch作为一个开放源代码(ope

7、n-source)的通用搜索引擎系统平台受到了众多开发者的青睐.与Google等商业搜索引擎相比,Nutch具有透明度高、扩展性好等特点.利用Nutch,可以方便快速的构造来稿日期:2010—02—08基金项目:河北省张家口市2009年科技攻关计划项目(0921047B)作者简介:张敏(1974一),女,北京市人,河北北方学院信息科学与工程学院讲师,硕士.万方数据2010年8月河北北方学院学报(自然科学版)第4期出一个性能良好的搜索引擎.但是,用于构建中文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。