基于lucene的aep垂直搜索引擎的研究与实现

基于lucene的aep垂直搜索引擎的研究与实现

ID:33862754

大小:3.03 MB

页数:55页

时间:2019-02-28

基于lucene的aep垂直搜索引擎的研究与实现_第1页
基于lucene的aep垂直搜索引擎的研究与实现_第2页
基于lucene的aep垂直搜索引擎的研究与实现_第3页
基于lucene的aep垂直搜索引擎的研究与实现_第4页
基于lucene的aep垂直搜索引擎的研究与实现_第5页
资源描述:

《基于lucene的aep垂直搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、华中科技大学硕士学位论文基于Lucene的AEP垂直搜索引擎的研究与实现姓名:丁照波申请学位级别:硕士专业:系统工程指导教师:王小平20080603华中科技大学硕士学位论文摘要随着阿里软件电子商务平台上软件的增多,单纯的依靠目录式的方法来寻找需要的软件已经不能满足用户的需求,也不能提升用户的体验度,开发搜索引擎势在必行。本文在开源工具包Lucene2.0的基础上,开发了一个能够深度搜索软件详细信息的垂直搜索引擎,力争应用到电子商务平台上。本文的主要工作有:分析包括信息检索的模型等搜索引擎的相关理论;介绍搜索引擎的相关技术,包括网络爬虫Heritrix和

2、DWR的原理和应用;扩展Heritrix并抓取AEP平台上的软件信息;将DWR技术应用于平台的搜索模块,能够大大节省系统资源;使用Htmlparser处理抓取到的文档,将html页面持久化为包含软件所有有用信息的文档;分析Lucene的开源框架、搜索引擎的工作原理,对它的索引构建、搜索模块和过滤排序等有了深入的了解,并在此基础上开发了垂直搜索引擎的相应模块;使用Spring+Hibernate+MySql构建AEP垂直搜索引擎的搜索模块,并使用最大匹配法进行分词处理。总之,本文不仅对AEP搜索引擎进行了实现,还在实现中尽量使用主流的技术,对用到的各种相

3、关工具进行了较为深入的研究,对用到的分词算法和排序算法进行了研究和实现。本文的研究成果可以广泛应用于各种网站和Web应用系统的搜索,开发者可以根据需要制定符合用户习惯和要求的搜索。关键词:Lucene2.0垂直搜索引擎HeritrixDWRHtmlParserI华中科技大学硕士学位论文AbstractWiththeincreaseofsoftwareontheAlisoftEconomicPlatForm(AEP),findingthenecessarysoftwaresimplyrelyondirectory-stylemethodisunablet

4、omeettheneedsofusers,alsocannotenhancetheCustomerExperienceIndex(CEI).Asearchenginemustbeendevelopedinthenearfuture.Averticalsearchenginewhichcangetsoftwaredetailsisestablishedbasedontheopen-sourcetoolkitsLucene2.0.Thiscanbeappliedtopracticalapplication.Themajorworksinthisthesis

5、areasfollows:Analyzesearchenginetheoryincludingthemodelofinformationretrieval;introducetherelatedtechnologyofsearchengine,includingthetheoryandapplicationofHeritrixandDWR;extendthespiderHeritrixandcrawlinformationonAEP;DWRisappliedtothesearchmoduleofAEPsearchengine,whichcansavet

6、hesystemresourcetoalargeextent;Duringthedesignandimplementation,Htmlparserisusedtodealwiththedocument.Ittransformshtmlpagetotxtdocumentthatincludesallthevaluableinformation;Theopen-sourceframework—Lucene,theprincipleofsearchenginewasanalyzedinthisthesis;Thecorrespondingmoduleofa

7、verticalsearchenginewasimplementedaftergoingdeepintotheimplementationofLucene,includingindexconstruction,searchmodule,resultssort&filter;Alsointheimplementationofsearchmodule,theprevalentframeworkSpring+Hibernate+Mysqlwasapplied.ForwardMaximumMatchingmethodwasappliedinChinesewor

8、dsegmentation.Inaword,notonlytheverticalsearche

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。