借助查询历史改善结果排序的文件检索系统的设计及实现毕业论文

借助查询历史改善结果排序的文件检索系统的设计及实现毕业论文

ID:880467

大小:629.01 KB

页数:61页

时间:2017-09-22

借助查询历史改善结果排序的文件检索系统的设计及实现毕业论文_第1页
借助查询历史改善结果排序的文件检索系统的设计及实现毕业论文_第2页
借助查询历史改善结果排序的文件检索系统的设计及实现毕业论文_第3页
借助查询历史改善结果排序的文件检索系统的设计及实现毕业论文_第4页
借助查询历史改善结果排序的文件检索系统的设计及实现毕业论文_第5页
资源描述:

《借助查询历史改善结果排序的文件检索系统的设计及实现毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京大学硕士研究生学位论文题目:一个借助查询历史改善结果排序的文件检索系统的设计与实现姓名:学号:院系:信息科学技术学院专业:计算机系统结构研究方向:计算机网络与分布式系统导师:版权声明任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。摘要随着网络的发展,网络上提供文件共享服务的服务器越来越多,共享的文件数量也随之增加。如何更好的检索、利用这些共享文件成为一个重要的问题。针对用户对文件检索的需求,本文在文件检索技术领域

2、有如下贡献。1.本文首先提出了一个文件检索的模型,明确了在文件检索模型中检索对象、查询串、查询与检索对象的匹配方式三部分的含义。检索对象,即文件条目表示为六元组[name,ext,size,date,site,path]的形式,查询串表示为以空格分隔的字符串的集合,查询与检索对象的匹配则表示为查询串与文件条目的匹配串之间的匹配。2.提出了对文件检索系统进行评测的指标。将查询结果视作集合时以查全率、查准率为评测指标。将查询结果视作有序序列时,分析了查询结果的相关性、连接下载速度以及结果的可用性等因素对排序的影响,并提出了对排序进行评测的指标——排序

3、指数。作者还提出对于两个排序策略进行比较时,应当在结果的每个页面内部应用排序策略,而不是在全体结果集合上应用排序策略,并比较平均用户选取条目的页内排名。3.通过统计、分析用户对文件搜索引擎的检索和对检索结果中下载地址条目的选取,作者发现了用户行为习惯中的两个重要规律:一、少数查询串占据了全部查询请求的大多数,具体而言,前20%的热门查询串占据了全部查询请求的80%;二、对全体用户而言,假设有n次不同的查询请求使用了同一个查询串,并且它们代表k类不同的查询意图。那么通常k≤3,因而在n较大的情况下,则n/k的值较大,即大量的来自不同用户的请求代表了

4、相同的查询意图。4.基于上文所述,作者设计并实现了一个真实的系统。该系统借助查询历史改善结果的排序。与一般基于用户历史信息的检索系统不同的是,本系统借助的历史信息不局限于当前用户的历史信息,还包含提交了相同查询串的其他用户的查询信息。或者说,即使当前用户是第一次使用本系统,本系统也能利用其他用户的历史记录来改进结果的排序和筛选。作者最后还验证了其实际的效果。应用本方法后,平均用户选取条目的页内排名从原来的13.70名前进到了8.93名。试验结果表明文中所做的分析是正确的。关键词:文件检索系统,查询历史,检索模型TheDesignandImplem

5、entationofaFileIndexSystemwhichImprovetheOrderbyQueryHistoryAbstractWiththerapidexpansionoftheInternet,therearemoresharingfileservers.Andthenumberofsharingfilesisincreasingrapidlytoo.Soit’smoreimportanttoretrievethesefileseasily.Fortherequirementoffileretrievingoftheusers,wed

6、idthefollowingjobs:1.Weproposedafileindexmodel.Themodeliscomposedoftheexpressionofanindexobject,theexpressionofaquery,andhowthequerywordmatchestheindexobject.Theindexobjectcanbeexpressedas[name,ext,size,date,site,path],thequerystringisexpressedasstringsseparatedbyspace,andthe

7、matchingbetweenqueryandindexobjectisrealizedbymatchingthequerystringandthematchingstringsofthefileitem.2.Wealsoproposedtheevaluationindicatorforthefileindexevaluation.Theprecisionandrecallareusefulwhenweevaluatethequeryresult.Buttheresultisnotaset,butanorderedlist.Soweindicat

8、edthefactorsinorder:therelativityoftheitem,theconnectinganddownloads

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。