2011-李铄-bthesis-基于纯位置索引的高效文档检索docx

2011-李铄-bthesis-基于纯位置索引的高效文档检索docx

ID:20637565

大小:348.75 KB

页数:46页

时间:2018-10-14

2011-李铄-bthesis-基于纯位置索引的高效文档检索docx_第1页
2011-李铄-bthesis-基于纯位置索引的高效文档检索docx_第2页
2011-李铄-bthesis-基于纯位置索引的高效文档检索docx_第3页
2011-李铄-bthesis-基于纯位置索引的高效文档检索docx_第4页
2011-李铄-bthesis-基于纯位置索引的高效文档检索docx_第5页
资源描述:

《2011-李铄-bthesis-基于纯位置索引的高效文档检索docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于纯位置索引的高效文档检索本科生毕业论文题目:(中文)基于纯位置索引的高效文档检索(英文)EfficiencyDocumentRetrievalwithFlatPositionIndex姓名:李铄学号:00748033院系:信息科学技术学院专业:计算机科学与技术指导教师:闫宏飞二〇二一年六月二十九日45基于纯位置索引的高效文档检索摘要查询语句中的短语查询在现代搜索引擎中占据着较大比例。本文引入一种新的索引结构——纯位置索引(flatpositionindex)结构去处理短语查询。首先,本文对纯位置索引结构及其实现进行介绍;同时,本文提出了一种新的结构(CSLT)来辅助纯位

2、置索引提高其检索效率;并且与传统索引在处理短语查询上进行比较实验,纯位置索引在倒排索引文件的空间消耗上会有约6.5%的减少,在短语查询上约有18%的查询速度的提升。此外,本文以时下流行的一个国外微博客服务的网站推特(Twitter)作为短文档集合的代表,根据推特对发布的文本信息(tweet)的最大字节数的限制来修改纯位置索引的索引结构,使其可以针对短文档集合进行高效的查询。本文在推特上将修改后的纯位置索引与传统索引在布尔查询、短语查询、邻近查询三种查询方式下进行检索的时间性能进行比较,修改后的纯位置索引可以在涉及位置信息的查询(如短语查询和邻近查询)上获得平均约60%的查询

3、速度的提升,同时在索引文件所消耗的空间上会有约29%的节省。基于实验结果,本文得出纯位置索引在处理涉及位置信息的查询,尤其在短文档集合上具有高效性的结论。关键词:纯位置索引传统索引短文档集合查询性能推特检索45基于纯位置索引的高效文档检索AbstractAlargeproportionofmodernsearchenginequeriescontainphrases,namelyasequenceofadjacentwords.Inthispaper,weuseaflatpositionindextomakephrasequeriesevaluationmoreeffici

4、ent.Thispaperpresentsabriefintroductionofflatpositionindex.Inaddition,anewstructurecalledCSLT(cachesensitivelook-uptable)isproposedtoassisttoimprovetheperformanceofqueryprocessing.ExperimentswithGOV2datacollectionshowthatflatpositionindexcanreducetheindexsizebyalmost6.5%andspeedupphraseque

5、ryingabout18%comparedwithword-levelindex.Furthermore,thispaperregardsTwitterasatypicalexampleofacollectionwithshortdocuments,modifyingflatpositionindexbasedonTwitter’smainfeature,sayalimitationontweet’smaximumlength.ExperimentswithEdinburghTwitterCorpusareimplementedunderthreedifferentkind

6、sofquerymodes,includingbooleanquery,phrasequeryandproximityquery.Comparedwithword-levelindex,themodifiedflatpositionindexachievesnearly60%speedupforlasttwoquerymodes,aswellas29%indexsizereduction.Accordingtothetwoexperiments,thispapershowsthatflatpositionindexcanachieveabetterperformancein

7、processingquerieswithpositiondemand,e.g.phrasequeryandproximityquery,especiallyonshortdocuments,thantraditionalindexlikeword-levelindex.Keywords:flatpositionindex,word-levelindex,query,Twittersearch,collectionwithshortdocuments45基于纯位置索引的高效文档检索目录第一章引言5第二章信息检索背景

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。