欢迎来到天天文库
浏览记录
ID:36803399
大小:2.63 MB
页数:51页
时间:2019-05-15
《基于MPI的分布式搜索引擎系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要摘要伴随着互联网的普及和网络信息的爆炸式增长,人们查阅资料己不是依靠有限范围内的网站来寻找,而是依靠搜索引擎对信息海洋中的海量数据进行访问了。搜索引擎技术已经成为互联网发展必不可少的核心技术,它的作用越来越重要。然而现有的搜索引擎大多是集中式的,已经不能很好地适应网络的进一步发展,分布式技术是下一代搜索引擎的发展趋势。本文在分析传统搜索引擎技术不足的基础上,提出一种基于MPI(MessagePassingInterface)的分布式搜索引擎系统。该系统主要由并行网页抓取和分布式建立索引两部分组成。首先,详细介绍了网页并行抓取的
2、设计和实现,包括它的系统框架、主要模块、运行流程和URL调度算法。URL调度算法采用散列计算,不仅实现了负载平衡,而且在一定程度上避免了冲突。然后,通过分析索引数据库在搜索引擎时效性及有效性方面的重要作用,提出一种多进程并行分词建立索引的方法。该方法以中文网页数据库为基本语料库,采用正向最大匹配法进行中文分词,并用一种高效的倒排索引方式存储索引表。这种方法能够加快索引建立与更新的速度,并且在空间效率上也有较大的提高。分布式中文搜索引擎架设在基于MPI的分布式网络结构之上,利用MPI良好的分布式特性,使搜索引擎从集中式走向分布式。采
3、用静态和动态相结合的任务分配策略,提高了时间和空间效率并使系统易于扩展,实现了网页快速抓取和索引的建立与更新。该搜索引擎能更深度、更广度地搜索互联网上用户可用的信息,更准确、更迅速的返回用户查询结果。关键词:搜索引擎,分布式,网页抓取,中文分词,倒排索引,负载平衡AbstractWiththepopularizationofInternetandrapidincreaseofinformation,peopledonotsearchtheinformationbyseveralwebsitesanymore,thereforeme
4、yusesearchenginetomatchtheirneeds.SearchenginetechnologyhasbecomeoneofthecoretechnologiesforInteractdevelopment,anditbecomesmoreandmoreimportant.CurrentSearchenginesarecentralizedincomputinganddon’tadapttothefurtherdevelopmentofInternet.Distributedtechnologyisthedevel
5、opmenttrendofthenextgenerationsearchengine.Thispaperanalyzestheshortcomingsinthetraditionalsearchenginesandbringsforwardasearchengineusingdistributedtechnology.Thesystemconsistsofparallelwebcrawleranddistributedindexing.First,ahighperformanceparallelcrawlerisintroduce
6、dindetail,includingitsoverallarchitecture,majorcomponentsandworkingprocess.TheURLschedulingalgorithmusinghashingnotonlyrealizesloadbalance,butalsoavoidscollision.Then,anewindexapproachispresentedwhichcarriesoutChinesewordsegmentationsbymultipleprocessingconcurrentlyba
7、sedonanalysingtheimportanceoftheindexerinreal—timeandeffectivenessofthesearchengine.ThemaximummatchingmethodisusedtocreateindexdataofChinesewebpagesandtheinvertedindextableiscarriedtostoreindexdata.Thismethodacceleratesthespeedoftheindexingandupdating,aswellastheeffic
8、iencyinspaceiSenhanced.TheMPI—baseddistributedChinesesearehengineconstructssearchengineonMPIdistributednetwokstructure,andma
此文档下载收益归作者所有