欢迎来到天天文库
浏览记录
ID:19513422
大小:1.40 MB
页数:114页
时间:2018-10-03
《搜索引擎检索系统的效率优化与效果研究v-pku-北京大学》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、北京大学博士研究生学位论文题目:搜索引擎检索系统的效率优化与效果评估研究姓名:彭波学号:10108808院系:计算机科学技术系专业:计算机系统结构研究方向:计算机网络与分布式系统导师:李晓明教授2004年5月北京大学博士研究生学位论文题目:搜索引擎检索系统的效率优化与效果评估研究姓名:彭波学号:10108808院系:计算机科学技术系专业:计算机系统结构研究方向:计算机网络与分布式系统导师:李晓明教授2004年5月OnEfficiencyOptimizationandEffectivenessEvaluationofSearchEngineRetrievalSystemDissert
2、ationSubmittedtoPekingUniversityinpartialfulfillmentoftherequirementForthedegreeofDoctorofNaturalScienceByPengBo(ComputerScienceandTechnology)DissertationSupervisor:ProfessorXiaomingLIMay,2004版权声明任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。摘要本文研究工作
3、是国家重点基础研究发展规划项目“网络环境下海量信息组织与处理的理论与方法研究”的一部分;针对Web搜索引擎应用背景,以构建大规模、高性能搜索引擎的检索系统为目标,系统地研究了检索系统的效率问题和效果评估问题,提出了若干关键技术,在大量实验和真实数据分析的基础上,得到了如下研究成果和结论:1)提出了一种混合索引技术。该技术针对中文信息检索索引词选择的问题,通过结合中文自动分词与未登录词识别技术,把基本分词结果与在识别生成的扩展词典上的分词结果都选择作为索引词。通过在实际系统的应用实践,表明该技术能有效提高短语检索效率。2)提出了一种倒排文件分块组织方法,它兼顾了文档编号序列和文档权值
4、序列在检索系统性能中的不同作用,为综合优化系统性能提供了一个可操作的框架。和已有相关工作相比,这一研究基于搜索引擎应用背景,通过搜索引擎系统的实际数据,建立了一个检索性能模型,在此模型基础上研究分块组织策略对性能的影响和分块参数的优选。研究结果表明,这一分块组织策略可以有效提高检索效率。3)倒排文件缓存是检索系统效率优化的重要技术。结合到大规模检索过程中磁盘I/O以及操作系统页面调度的特点,本文研究了倒排文件缓存优化设计中的性能指标选择、替换算法、页面大小和倒排文件组织方式对缓存性能影响等问题。研究结果为倒排文件缓存优化设计提供了指导。4)针对搜索引擎检索系统效果评估中的若干问题,
5、设计并实现了一个搜索引擎检索系统检索效果评估的实验环境。基于搜索引擎的用户查询日志,按查询类别构建了用户查询集合。对不同搜索引擎搜集系统搜集网页集合的差异、评测员结果之间的差异对评估实验的稳定性、连续性的相关度评分分值以及对应的评估指标、查询集合大小对评估实验的稳定性等问题进行了研究,结果对于进行有效的检索评估实验有重要指导意义。¾96¾5)基于对搜索引擎用户点击日志数据的分析,提出了一种自动构建评估实验相关结果集合与进行自动评估实验的方法。实验显示这一自动方法得到的结果和人工评估实验结果保持一致,并且对不同查询集合保持稳定。这一方法为解决大规模数据集上检索系统评估的可扩展性问题提
6、供了一条有效的途径。关键词:万维网,搜索引擎,信息检索,检索效率,性能,评估¾96¾AbstractSearchengineisnowaninfrastructureoftheinformationsociety.Inthisdissertation,westudiedtheperformanceoflarge-scaleretrievalsystemofsearchengine;especiallyfocusedonefficiencyoptimizationandeffectivenessevaluation.Themaincontributionsinclude:1.Amix
7、tureindextermselectionmethodisproposed.ByintegratingthetechniquesofChineseautomaticwordsegmentationandunknownworddetection,weselectboththeresultsofwordsegmentationonthebasicdictionaryandtheresultsontheextendeddictionaryconsistingofdetec
此文档下载收益归作者所有