高性能海量数据检索系统的设计与实现

高性能海量数据检索系统的设计与实现

ID:371144

大小:566.00 KB

页数:49页

时间:2017-07-29

高性能海量数据检索系统的设计与实现_第1页
高性能海量数据检索系统的设计与实现_第2页
高性能海量数据检索系统的设计与实现_第3页
高性能海量数据检索系统的设计与实现_第4页
高性能海量数据检索系统的设计与实现_第5页
资源描述:

《高性能海量数据检索系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、北京大学信息科学技术学院·网络实验室硕士学位论文北京大学硕士研究生学位论文题  目:海量文档高速检索系统的设计与实现姓  名:谢翰学  号:   10280040    系  别: 信息科学技术学院  专  业: 计算机软件与理论  研究方向: 网络与分布式系统  导  师:   李晓明教授   二零零五年六月44北京大学信息科学技术学院·网络实验室硕士学位论文版权声明任何收存和保管论文各种版本的单位和个人,未经本论文作者授权,不得将本论文转借他人,亦不得随意复印、抄录、拍照或以任何方式传播。否则,引

2、起有碍作者著作权益之问题,将可能承担法律责任。44北京大学信息科学技术学院·网络实验室硕士学位论文摘要搜索引擎的检索效率是评价搜索引擎质量的一个重要指标,面对互联网上信息量的不断增加以及搜索引擎网页库的不断增大,对检索系统性能要求也越来越高。本文详细介绍了一个搜索引擎检索系统的设计与实现,针对搜索引擎检索系统的性能问题进行了研究,讨论了影响检索性能的几个因素,并分别提出改进的方法和途径。这些方法包括设计出结构更加良好的倒排文件结构,改进整数压缩编码,引入倒排文件cache,预先计算关键词与文档相关度,

3、减少关键词相对位置计算开销,改进站点聚类算法等。另外,论文还阐述了系统中使用的新的相关度计算方法,这个算法使得在最终的结果排序上比原有系统有了一些改进。论文的组织形式以实际系统中各模块为主线,这些模块包括倒排文件结构,底层数据接口,查询,计分和站点聚类等。在论文最后给出了系统的综合测试结果,指出系统中还存在的不足,并对后续工作提出了一些建议。关键词:搜索引擎,检索系统,倒排文件,检索效率,相关度计算44北京大学信息科学技术学院·网络实验室硕士学位论文TheDesignandImplementation

4、ofaHighPerformanceRetrievalSystemXIEHan(ComputerSoftwareandTheory)DirectedbyLIXiaomingAbstractTheperformanceofretrievingiscrucialformodernsearchengine.Thisarticleintroducesthedesignandimplementationofaretrievalsystemforwebsearchengine.Especially,wewilld

5、iscussthefactorsthataffectretrievalperformance,andgivethesolutionsforeachofthem,suchasdesigninganewformatforinvertedfileandanewencodingalgorithmforintegers,introducingcachefortheindex,pre-computingthesimilarityoftermsanddocuments,anddesigningabettersite

6、groupingalgorithm.Anewrankingalgorithmusedinthesystemwillbediscussedtoo.Thearticleisorganizedbymodules,includinginvertedfile,datainterface,query,scoringandsitegrouping.Inthelastchapterwewillmakeanoverallevolution,andsomeadvicesforitsfurtherimprovementwi

7、llbegiven.Keywords:searchengine,retrievalsystem,invertedfile,performance,ranking.44北京大学信息科学技术学院·网络实验室硕士学位论文目录第1章绪论11.1搜索引擎原理11.2倒排文件21.3检索系统分布式结构41.4现有系统的不足与本文的主要贡献5第2章倒排文件设计62.1基本原则62.2整数压缩编码方法72.3系统使用的倒排文件结构定义82.3.1描述文件82.3.2索引文件102.3.3记录文件10第3章底层数据组织

8、133.1影响检索效率的主要因素133.2创建索引153.3获得文档列表183.3.1接口与数据组织183.3.2性能测试203.4获得位置列表233.5模块的一些不足26第4章查询过程274.1文档列表求交274.2相关度计算284.2.1关键词与文档相关度284.2.2相对位置得分304.3站点聚类314.4查询模块接口33第5章综合评测与总结355.1系统整体结构355.2实验设计365.3实验结果375.4总结3944北京大学信息科学技术学院·网

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。