浅论基于分布式并行计算的搜索引擎的研究与设计

浅论基于分布式并行计算的搜索引擎的研究与设计

ID:35151551

大小:1.28 MB

页数:56页

时间:2019-03-20

浅论基于分布式并行计算的搜索引擎的研究与设计_第1页
浅论基于分布式并行计算的搜索引擎的研究与设计_第2页
浅论基于分布式并行计算的搜索引擎的研究与设计_第3页
浅论基于分布式并行计算的搜索引擎的研究与设计_第4页
浅论基于分布式并行计算的搜索引擎的研究与设计_第5页
资源描述:

《浅论基于分布式并行计算的搜索引擎的研究与设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉理工大学硕士学位论文基于分布式并行计算的搜索引擎的研究与设计姓名:刘怀英申请学位级别:硕士专业:计算机应用技术指导教师:刘冠蓉20050501武汉理上大学硕士学位论文中文摘要瓦联网是个巨大的信息资源库,从这个资源库中提取和检索出有用信息是个很重要的课题。搜索引擎是通用的信息检索服务。搜索引擎一般由Crawler、索引库、检索器和用户接口组成。Crawler从Web上下我页面:分析器对下载页面的内容进行分析以用于建立索引:索引器将文档表示为一种便于检索的方式并存储在索引数据库中;检索器实现用户查询关键词和目标文档匹配度的计算;用户接口为用户提供一个输入查询请求,定制查询

2、结果的Web页面并将查询结果格式化后返回给浏览器。由于搜索引擎处理的对象是十分庞大的数据量,同时互联网的结构是分布式的,搜索引擎设计成分布式并行处理的系统同时用若干机器协同计算处理,分布式并行的方法可以取得更好的性价比。本文论述构建一种基于分布式并行计算技术的Web搜索引擎模型架构。采用分布式并行编程模式,选用了任务分发和sPMD模式。采用功能分解、迭代分解、几何分解相结合的分解技术。在并行编程中线程是流行的模型,在并行计算上采用JAVAThread和ThreadGroup的编程模型。消息传递对分布式的并行编程是有效的,在分布式计算的消息传递上采用Java的Socket通

3、信方式。对于任务分发的模式主要用于初始时URI集的分发,由若干个节点机器并行抓取,对于每个节点提取的URI的主域的HashCode模N得到处理该URI的节点机器,即发送到该编号机器处理,对于每个节点机器又是SPMD模型,他们的处理流程相似,区别在于处理的URI不同。在Web搜索引擎的设计上,设计基于全文内容的搜索,论述了数据采集器Crawlers的广度优先和深度优先抓取策略;Robot协议;数据的处理;Web内容的提取;Web分析;中文分词和索引技术。介绍了用查全率、查准率对搜索引擎的评测。在搜索引擎的结果处理上,分析比较了几种搜索结果排序算法包括PageRank、HIT

4、S、HillTop算法,在分析PageRank算法$11HITS算法的缺陷后,提出了基F关键字与锚文本之间相关性、关键字与文档之间相关性以及相关文档的最小集合分析相结合的改进算法思想。讨论了搜索引擎的未来发展。同时介绍了几种移动搜索、领域搜索、个性搜索应用模式。关键词:搜索引擎、分布式、并行、分词、线程、JAVAII武汉理工大学硕士学位论文AbstractTheInternetcanbeseenasaverylargeinformationdatabase.TheproblemisalsobecomingimportantinlargeInternet,whereWewa

5、nttoextractOrretrievalusefulinformationtosupportasearch.Searchenginebecomesthemostpopularnetworkscr、,iceofin如rma!ionretrieval.ThesearchengineisgenerallymadeupbyCrawler,indexstorehouse,searchingdeviceanduserinterface.CrawlerdownloadspagesfromWeb;parserisitanalysesinordertouscforindexofsett

6、inguptogoontocontenttodownloadpage;Theindexshowsthefileforakindofwayeasytosearchandstoresintheindexdatabase:ThesearchingdeviceI'ealizcsiisersinquirethekeywordandgoalfilematchthecalculationofdegree;Userinterfaceoffertouscroneisitisitasktoinquireaboutt0input.isitinquireWebpageofresultandinq

7、uireresultisitgivethebrowsertoreturnatterformattingtocustomize.Thetargetofdealingwiththesearchengineisveryhugedataamount,atthesanletimethestructureofIntemetiswithclothtype,searchenginedesigndistributedsystemthatundertakestheparallelprocessingofspendsseveralmachinesi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。