中文信息检索中多索引策略融合的研究.pdf

中文信息检索中多索引策略融合的研究.pdf

ID:52837423

大小:205.07 KB

页数:3页

时间:2020-03-31

中文信息检索中多索引策略融合的研究.pdf_第1页
中文信息检索中多索引策略融合的研究.pdf_第2页
中文信息检索中多索引策略融合的研究.pdf_第3页
资源描述:

《中文信息检索中多索引策略融合的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第23卷第4期黑龙江工程学院学报(自然科学版)Vol_23No.42009年12月JournalofHeilongjiangInstituteofTechnologyDec.,2009中文信息检索中多索引策略融合的研究孙育华,韩中元“,韩咏,李军(1.黑龙江工程学院计算机科学与技术系,黑龙江哈尔滨150050;2.哈尔滨工业大学计算机科学-~&aV系,黑龙江哈尔滨150001)摘要:索引策略是中文信息检索系统中重要的研究内容之一。对基于字、词和二元文法的索引策略进行研究,分析各自的特点,进行性能对比,在此基础上

2、提出将词的索引策略与二元文法索引策略进行线性融合。应用2一泊松模型的BM25公式在TREC公开数据集上进行测试。实验表明,融合后的索引策略在主要性能评测参数平均精确率、R一精确率参数上相对较优。关键词:中文信息检索;索引策略;多索引策略融合中图分类号:TP391文献标识码:A文章编号:1671—4679(2009)04—0044—03Theresearchoncombinationofmutil—strategyforChineseinformationretrievalSUNYu-hua,HANZhong—y

3、uan2“,HANYong,LIJun(1.DepartmentofComputerScienceandTechnology,HeilongiiangInstituteofTechnology,Harbin150050,China2.SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China)Abstract:Theindexingstrategyisoneoftheimportantpartsofthe

4、Chineseinformationretrieval(IR).Thispaperfocusesontheindexingstrategybasedoncharacter,wordandbigram,analysesthecharactersofeach,comparestheirperformance,andthenproposestolinearcombinationtheindexingstrategiesbasedonwordandbigram.Inthispaper,theBM25formulaof2

5、一PossionModelisusedasretrievalmodelandtheTRECMandarincorpusisusedasdata.Experimentalresultsshowthattheinosculatedindexingstrat—egyisbetteronMAPandR-precision.Keywords:Chineseinformationretrieval;indexingstrategy;combinationofmutil—strategy中文检索系统通常把句子分割成更小的单元

6、进处理分词的时候不需要语言学上的知识。一个字符行索引。索引策略通常有字、词和元文法。基于串可以被简单地分成固定长度,实现方便。研究表字的索引策略是将句子拆分成单个的汉字进行索明元文法性能较优。n元文法的索引开销较大,引,这种策略实现简单,但性能不佳。基于词的索引且三元文法性能低于二元文法,因此,通常只研究二策略以词作为索引单元,符合人们的思维习惯,更符元文法。合语言学知识,并为绝大多数检索系统采用,取得了目前,已经有学者对索引策略进行了相关的比较好的检索效果。不过进行分词运算时运算量较较和研究。以往的研究结果指

7、出:使用基于词的索大,且自动分词存在错误,尤其是未登录词的处理目引策略性能优于基于字的索引策略l2],二元文法索前还不十分理想。元文法索引策略以个字作为引策略在向量空间模型、2一泊松模型、逻辑回归模索引单元,一篇文档通过分词处理变成相邻”个字型等检索模型上性能优于基于字的索引策略以及基的组合。采用元文法索引策略的信息检索系统在于词的索引策略[。]。文献[6]讨论了基于词与二元文法索引策略进行混合索引在2一泊松模型下性能较优。文献[7]指出基于字的索引策略与基于词的收稿日期:2009—06—02基金项目:国家自然

8、科学基金项目(60873105);黑龙江省教育厅科学索引策略的融合性能较优。近年来,在中文索引策技术项目(11531304)略方面的研究没有新的进展。各索引策略具有各自作者简介:孙育华(1963一),女,副研究员,研究方向:计算机信息检索.的特点。多索引策略的融合能够发挥各自的优点,第4期孙育华,等:中文信息检索中多索引策略融合的研究弥补缺点,带来性能上的提升。一泊松模型的BM25公式

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。