基于hadoop的分布式商品搜索引擎设计与实现

基于hadoop的分布式商品搜索引擎设计与实现

ID:35056970

大小:3.46 MB

页数:81页

时间:2019-03-17

基于hadoop的分布式商品搜索引擎设计与实现_第1页
基于hadoop的分布式商品搜索引擎设计与实现_第2页
基于hadoop的分布式商品搜索引擎设计与实现_第3页
基于hadoop的分布式商品搜索引擎设计与实现_第4页
基于hadoop的分布式商品搜索引擎设计与实现_第5页
资源描述:

《基于hadoop的分布式商品搜索引擎设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工程硕士学位论文基于Hadoop的分布式商品搜索引擎设计与实现DESIGNANDIMPLEMENTATIONONDISTRIBUTEDPRODUCTSERACHENGINEBASEDONHADOOP李谋哈尔滨工业大学2016年6月国内图书分类号:TP311学校代码:10213国际图书分类号:004密级:公开工程硕士学位论文基于Hadoop的分布式商品搜索引擎设计与实现硕士研究生:李谋导师:杨沐昀副教授申请学位:工程硕士学科:软件工程所在单位:软件学院答辩日期:2016年6月授予学位单位:哈尔滨工业大学ClassifiedInd

2、ex:TP311U.D.C:004DissertationfortheMasterDegreeinEngineeringDESIGNANDIMPLEMENTATIONONDISTRIBUTEDPRODUCTSERACHENGINEBASEDONHADOOPCandidate:LimouSupervisor:Prof.YangmuyunAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofSoft

3、wareDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要近年来,在电商领域中各种各样的网购平台发展迅速,网上购物已成为许多人选购商品的基本途径。同时随着C2C经营模式的普及,越来越多的人纷纷在网上开店,网购平台上每时每刻都有新商家入驻,商品上下架,伴随着海量的商品信息更新。如何实时准确地收集并更新大量数据,怎样让消费者在网购平台快速找到自己心目中的商品,这些问题使网购平台所使用的商品搜索引擎面临着巨大挑战。目

4、前市上的搜索引擎很多都采用相同的架构——集中式架构,即搜索引擎所有构建都集中搭建在一台机器上,导致引擎对单节点机器硬件设备要求很高,而且系统的稳定性、移植性都很难得到保证。为了克服这个缺点就不得不采购极为昂贵的高性能计算机,这对搜索服务提供商来说是一笔较大的资金投入。本文在电商门户网站的平台上提出了一个在电商垂直领域上的分布式商品搜索引擎(下文简称引擎)。该引擎包含建立索引,查询数据,集群管理,服务管理,集群监控等功能,不包括信息数据爬取步骤。该分布式搜索引擎预计为国内某网购平台提供查询服务,它由多个团队人员协同设计开发完成。

5、相比现有的众多搜索引擎,本文提出的基于Hadoop的分布式商品搜索引擎能够在消耗更少机器资源的情况下提供更多数量级(数十亿商品)的快速检索服务。针对某些数量巨大,被高频率反复搜索的商品,本文也提出了截断索引等思想,完美的解决了因商品倒排链过长而导致的检索缓慢难题,同时该产品有很好的扩展性,能支持多种搜索业务,产品原始文档Key-value格式的字段设计使其不但能为电商门户网站提供高效的检索服务,还能作为通用的网页搜索引擎使用。关键词:垂直搜索;索引;搜索引擎;分布式计算;商品搜索IAbstractABSTRACTInthefi

6、eldofelectronicbusiness,avarietyofonlineshoppingplatformdevelopedrapidlyinrecentyears,andonlineshoppinghasbecomeabasicmethodalotofpeopleusetobuygoods.Meanwhile,withthepopularityofC2Cbusinessmodel,moreandmorepeoplesetupshopsonline.Merchantscanopenstoreandupdateitemin

7、formationatanytimetheywant,alongwiththevastamountsofproductinformationupdates.Howtoupdateandgatherthesedatatimelyandaccuratly,howtoletconsumersquicklyfindtheirownfavoritegoodsatonlineshoppingplatform,theproductsearchengineofonlineshoppingplatformarefacingenormouscha

8、llenges.Atpresent,mostofthesearchenginesystemarestructuredtocentralizedstructure,whichmeansallofsystems’modulesaredeployedononeserver,andi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。