欢迎来到天天文库
浏览记录
ID:32425756
大小:2.21 MB
页数:68页
时间:2019-02-04
《基于分布式计算搜索引擎关键技术的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:______________日期:________________西安电子科技大学关于论文使用授权的说明本人完全了
2、解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。(保密的论文在解密后遵守此规定)本学位论文属于保密,在年解密后适用本授权书。本人签名:______________导师签名:______________日期:______________日期:______________摘要摘要伴随着互联网的高速发展,网络
3、上的数据信息量急剧膨胀,有“互联网窗口”之称的搜索引擎的计算量及存储量不可同日而语。面对如此庞大且高速增长的海量数据,传统集中式搜索引擎暴露出诸多不足,主要表现在时效性差,可扩展性低,故障率高等方面。面对上述难题,且随着分布式计算技术不断发展成熟,分布式搜索引擎应运而生。本文针对分布式搜索引擎,剖析了分布式计算的三项关键技术,即分布式文件系统、Map/Reduce编程模型、分布式结构化数据存储。结合传统搜索引擎主要模块遭遇的瓶颈,阐述了分布式网络爬虫及Map/Reduce构建倒排索引的原理及应用。此外,对搜索引擎涉及的关键技术提出了部分改进算法及优化设计,并进行相应的实验对比测试
4、:为了在最短的时间内抓取价值最高的网络资源,提出了多优先级多队列网络爬虫,其基本思想即URL价值越高,优先级就越高应优先抓取;三叉Trie树在分词模块中的应用,极大地降低了分词算法的空间复杂度;基于用户习惯及关键词的相关度,提出了静态缓存和动态缓存相结合的多级缓存索引,提高了检索效率及用户体验。最后,本文基于Hadoop分布式计算框架及Lucene检索引擎,部署了一个4节点的分布式搜索引擎系统。将改进算法及优化设计应用于相应关键模块,均取得了较大的效率提升。关键词:分布式计算Map/Reduce搜索引擎网络爬虫多级缓存索引基于分布式计算的搜索引擎关键技术研究与实现Abstract
5、AbstractAlongwiththerapiddevelopmentoftheInternet,theamountofthedatainformationonthenetworkhasbeenexpanded.Theamountofcomputationandstorageofthesearchenginecalled“InternetWindow”isquitedifferent.Duetosuchalargeandrapidgrowthofhugeamountsofdata,thetraditionalcentralizedsearchenginerevealedmany
6、inadequacies,mainlyinthebadtimeliness,lowscalabilityandhighfailurerate.Becauseofexistenceoftheaboveproblems,andwithcontinuousdevelopmentofthedistributedcomputingtechnology,thedistributedsearchengineshavebeenproposed.Inthispaper,analyzedthreekeytechnologiesfordistributedcomputing,DistributedFi
7、leSystem,Map/Reduceprogrammingmodel,distributedstructureddatastorage.Accordingtothebottlenecksencounteredbytraditionalsearchengine,elaboratedtheprincipleandapplicationofdistributedwebcrawlerandMap/Reducebuildinginvertedindex.Inaddition,propos
此文档下载收益归作者所有