欢迎来到天天文库
浏览记录
ID:35047193
大小:3.38 MB
页数:54页
时间:2019-03-17
《分布式网络爬虫在农产品搜索系统中的应用与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:密级:UDC:学号:416114514065南昌大学专业学位研究生学位论文分布式网络爬虫在农产品搜索系统中的应用与研究TheApplicationandResearchofDistributedWebCrawlerinAgriculturalSearchingSystem袁龙涛培养单位(院、系):信息工程学院指导教师姓名、职称:刘捷副教授专业学位种类:工程硕士专业领域名称:计算机技术论文答辩日期:2016年5月21日答辩委员会主席:评阅人:年月日独创性声明摘要摘要在互联网信息规模快速增长的背景下,要想
2、将互联网上各种各样的信息全部涵盖和收集显得不太现实,即使是谷歌、百度这样的搜索引擎公司也只能收集到不到20%的互联网信息[1]。通用搜索引擎在人们的生活中起着越来越关键的作用,但是随着人们需求的多元化,以及通用引擎自身局限性,通常精确的搜索需求得不到满足。网络商品信息繁多,各种农产品随着产地和时间的不同,价格变化大,而且农产品交易网站数量众多,如何快捷的得到自己感兴趣的网络农产品信息就是一个值得研究的问题了。由于网络信息量巨大,即使是农产品这样一个非常狭小的领域,也会涉及到海量的信息。建立一个比价系统首要的就
3、是信息源的选取,在海量信息面前,单机爬虫显然是作用有限的。本文提出了将网络爬虫和分布式的系统进行结合,在多机集群的分布式系统中实现的网络爬虫,从而提高信息下载收集的效率。本文所构建的系统是在Nutch这个成熟的搜索引擎架构上进行功能化和特性化的改造,使系统可以针对农产品的信息建立索引,并提供搜索和查询功能。由于本文研究的是针对特定领域的商品信息,因此在对商品信息进行搜索和建立索引时,就会涉及到URL的过滤和主题相关性的判断问题。我们结合了HTMLParaser和正则表达式对URL进行过滤,在对网页的内容主题相
4、关性判定时,借助于空间向量模型。在收集完相关网页信息后,在进行建立搜索和搜索服务提供时,都会涉及到分词操作,由于Nutch中原有的分词操作不能够较好的实现中文分词,我们选用了对中文分词支持比较好的IKAnalyzer来完成中文的分词。索引操作是对于收集到的信息进行一个预先的组织优化,使信息能够快速的被定位到。Nutch系统中采用的检索,由Lucene提供的全文检索系统,对网页信息进行索引建立,为高效搜索提供支持。最后将基于Nutch的面向农产品商品信息的分布式爬虫系统,进行部署进行实验验证,发现分布式的爬虫相
5、对于普通爬虫还是存在着并行的优势。整个系统还能够很好的对网络中农产品建立索引并集成这些信息,为用户提供农业产品商品信息的检索服务和一定的排序比较功能,实现个性化搜索服务,从而对系统可用性进行了验证。I摘要关键词:Nutch;分布式系统;网络爬虫;垂直搜索;农产品IIAbstractABSTRACTUnderthebackgroundoftherapidgrowthofInternetinformation,itisnotrealistictocoverandcollectallkindsofinformati
6、onsoftheInternet.SomesearchenginecompaniessuchasGoogle,Baiducancollectonlylessthan20%ofInternetinformations[1].Generalsearchenginesareplayinganincreasinglycriticalroleinpeople'slives,butwiththediversificationofpeople’sneeds,andthelimitationsofgeneralengines
7、,it’susuallyhardtomeettheaccuratesearchneeds.Commodity’sinformationsarevariousontheInternet.Agriculturalproductschangealotinpricebecauseofdifferentoriginandproductingtime,itisaproblemworthytostudythathowtogetagriculturalinformationsontheInternetwhichwearein
8、terestin,astherearealargenumberofagriculturalproductstradingsites.Ifyoucanquicklyobtaininformationaboutrelatedproductsbysimplyenterthekeyword,itwillbeaverygoodservice.Duetothehugeamountofinformationnet
此文档下载收益归作者所有