基于MPI的分布式搜索引擎系统研究

基于MPI的分布式搜索引擎系统研究

ID:36803399

大小:2.63 MB

页数:51页

时间:2019-05-15

基于MPI的分布式搜索引擎系统研究_第1页
基于MPI的分布式搜索引擎系统研究_第2页
基于MPI的分布式搜索引擎系统研究_第3页
基于MPI的分布式搜索引擎系统研究_第4页
基于MPI的分布式搜索引擎系统研究_第5页
资源描述:

《基于MPI的分布式搜索引擎系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要摘要伴随着互联网的普及和网络信息的爆炸式增长,人们查阅资料己不是依靠有限范围内的网站来寻找,而是依靠搜索引擎对信息海洋中的海量数据进行访问了。搜索引擎技术已经成为互联网发展必不可少的核心技术,它的作用越来越重要。然而现有的搜索引擎大多是集中式的,已经不能很好地适应网络的进一步发展,分布式技术是下一代搜索引擎的发展趋势。本文在分析传统搜索引擎技术不足的基础上,提出一种基于MPI(MessagePassingInterface)的分布式搜索引擎系统。该系统主要由并行网页抓取和分布式建立索引两部分组成。首先,详细介绍了网页并行抓取的

2、设计和实现,包括它的系统框架、主要模块、运行流程和URL调度算法。URL调度算法采用散列计算,不仅实现了负载平衡,而且在一定程度上避免了冲突。然后,通过分析索引数据库在搜索引擎时效性及有效性方面的重要作用,提出一种多进程并行分词建立索引的方法。该方法以中文网页数据库为基本语料库,采用正向最大匹配法进行中文分词,并用一种高效的倒排索引方式存储索引表。这种方法能够加快索引建立与更新的速度,并且在空间效率上也有较大的提高。分布式中文搜索引擎架设在基于MPI的分布式网络结构之上,利用MPI良好的分布式特性,使搜索引擎从集中式走向分布式。采

3、用静态和动态相结合的任务分配策略,提高了时间和空间效率并使系统易于扩展,实现了网页快速抓取和索引的建立与更新。该搜索引擎能更深度、更广度地搜索互联网上用户可用的信息,更准确、更迅速的返回用户查询结果。关键词:搜索引擎,分布式,网页抓取,中文分词,倒排索引,负载平衡AbstractWiththepopularizationofInternetandrapidincreaseofinformation,peopledonotsearchtheinformationbyseveralwebsitesanymore,thereforeme

4、yusesearchenginetomatchtheirneeds.SearchenginetechnologyhasbecomeoneofthecoretechnologiesforInteractdevelopment,anditbecomesmoreandmoreimportant.CurrentSearchenginesarecentralizedincomputinganddon’tadapttothefurtherdevelopmentofInternet.Distributedtechnologyisthedevel

5、opmenttrendofthenextgenerationsearchengine.Thispaperanalyzestheshortcomingsinthetraditionalsearchenginesandbringsforwardasearchengineusingdistributedtechnology.Thesystemconsistsofparallelwebcrawleranddistributedindexing.First,ahighperformanceparallelcrawlerisintroduce

6、dindetail,includingitsoverallarchitecture,majorcomponentsandworkingprocess.TheURLschedulingalgorithmusinghashingnotonlyrealizesloadbalance,butalsoavoidscollision.Then,anewindexapproachispresentedwhichcarriesoutChinesewordsegmentationsbymultipleprocessingconcurrentlyba

7、sedonanalysingtheimportanceoftheindexerinreal—timeandeffectivenessofthesearchengine.ThemaximummatchingmethodisusedtocreateindexdataofChinesewebpagesandtheinvertedindextableiscarriedtostoreindexdata.Thismethodacceleratesthespeedoftheindexingandupdating,aswellastheeffic

8、iencyinspaceiSenhanced.TheMPI—baseddistributedChinesesearehengineconstructssearchengineonMPIdistributednetwokstructure,andma

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。