浅谈面向大规模信息检索的中文分词技术研究

浅谈面向大规模信息检索的中文分词技术研究

ID:34824975

大小:2.21 MB

页数:74页

时间:2019-03-11

浅谈面向大规模信息检索的中文分词技术研究_第1页
浅谈面向大规模信息检索的中文分词技术研究_第2页
浅谈面向大规模信息检索的中文分词技术研究_第3页
浅谈面向大规模信息检索的中文分词技术研究_第4页
浅谈面向大规模信息检索的中文分词技术研究_第5页
资源描述:

《浅谈面向大规模信息检索的中文分词技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学院计算技术研究所硕士学位论文面向大规模信息检索的中文分词技术研究姓名:王思力申请学位级别:硕士专业:计算机软件与理论指导教师:王斌20060612摘要中文分词是中文信息处理的一个基础环节。在中文信息检索的文本处理阶段,也常用到这项技术。学术界关于分词技术的研究一直比较多,但是目前的研究大多是通用的分词算法,专门针对信息检索应用的分词技术研究相对较少.本文首先介绍了中文分词的难点。以及目前常用的一些切分算法.然后综合分析了分词技术对中文信息检索的影响,在此基础上系统地提出了适用于信息检索应用的分词技术的特点,并且根据这些特点给出我们自己的分

2、词算法。由于面向大规模信息检索的分词算法对时间性能要求较高,我们的词典算法采用了双数组Tile树优化算法。该算法查询一个词语最多只需要进行n-1次整数相加,时间复杂度是O(n),n为查询词长度.我们的实验显示,无论是单纯的词语查询速度还是最大匹配切分速度,双数组Tile树算法都要比目前词典机制中常用的普通Trie树算法和双字Hash算法快。歧义消除和未登录词识别是分词的两大技术难点。考虑到信息检索应用的特点,在歧义消除部分,对于交叉歧义和覆盖歧义这两类歧义,我们只处理前者,并在歧义位置用双字耦合度和t.测试差的线性迭加值来判断是否切分;对于后者,

3、我们提出一种在查询扩展时处理的方法。未登录词识别部分我们则利用单字的成词位置概率,同时结合局部二元串频统计对所有命名实体和新词进行统一识别。实验表明,该分词算法切分速度在CPU3.2G,内存512M的环境下能达到2MB,秒,比当前一些切分精度较高的分词算法如IarCLAS要快很多;在同样检索系统下,和信息检索中常用的交叉二元切分法、分词中常用的最大匹配法和ICTCLAS相比,使用该算法后检索出的前lO篇文档的准确率P@10分别提高了9%、11.4%和8.8%,前20篇文档的准确率1,@20提高了13.2%、12.弼和7.5%。关键词:信息检索;中

4、文分词;双数组Trio树;双字耦合度;t-测试差;AbstractResearchonChineseWordSegmentationforLargeScaleInformationRetrievalWangSili(Computersoftwareandtheory)DirectedByWangBin、ChineseWordSegmentation(CWS)isoneofthefundamentalcomponentsinChineseinformationprocessing,anditisalsofrequentlyusedinthetext

5、operationofChineseInformationRetrieval(cⅡq。Therea∞manyresearcheswhichfocusOnthetechnologyofCWS.However,lotsofthemfirealwaysOnuniversalalgorithms,seldomspecializedforinformationretrieval.First,thisthesisbeginswithallinn'oductionofthedifficultiesofCWStechnologyandseveralsegment

6、ationalgorithmsinfrequentusenOW.ThenthroughaninvestigationintotheinfluenceofCWS011cnLitstmmlarizesthecharacteristicsofCWStechnologywhichissuitableforlargescaleCIR.Finally,weproposeanddevelopsuchaCWSalgorithmwhichismoresuitableforCI艮BecauseofllighdemandforspeedonsegmentationMg

7、orithmofinformafionretrieval,0111"lexiconmechanismadopts锄improveddouble-arraytriealgorithm,whichonlyrequi瑚noladditionoperationswhilesearchingaword,andthetimecomplexityisO(n),wherenisthelengthofthequeryword.Ourexperimentshowthattheimproveddouble-arraytriealgorithmisfasterthant

8、rieanddouble-characterhashbothOnsearchingwordsandMaximummatchingsegm

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。