毕业论文--基于Lucene和Heritrix的新闻垂直搜索引擎的研究与实现

毕业论文--基于Lucene和Heritrix的新闻垂直搜索引擎的研究与实现

ID:39514052

大小:2.11 MB

页数:42页

时间:2019-07-04

毕业论文--基于Lucene和Heritrix的新闻垂直搜索引擎的研究与实现_第1页
毕业论文--基于Lucene和Heritrix的新闻垂直搜索引擎的研究与实现_第2页
毕业论文--基于Lucene和Heritrix的新闻垂直搜索引擎的研究与实现_第3页
毕业论文--基于Lucene和Heritrix的新闻垂直搜索引擎的研究与实现_第4页
毕业论文--基于Lucene和Heritrix的新闻垂直搜索引擎的研究与实现_第5页
资源描述:

《毕业论文--基于Lucene和Heritrix的新闻垂直搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、盐城师范学院毕业设计毕业设计基于Lucene和Heritrix的新闻垂直搜索引擎的研究与实现学生姓名学院专业班级学号指导教师2016年5月16日基于Lucene和Heritrix的新闻垂直搜索引盐城师范学院毕业设计擎的研究与实现摘要自Web2.0时代以来,网络的信息数据量呈现出几何倍数的增长,使得搜索引擎成为广大网络用户快速查询和浏览网络信息的最佳选择。目前搜索引擎中比教有影响的且用户量比较大的有谷歌、百度、雅虎等,它们起着链接导航的作用。但是,这些通用搜索引擎也存在着一定的局限性,如:搜索引擎的信息量过大而造成了搜索的深度不够、查询的结果不够准确等问题。垂直搜索引擎便诞生在这样的

2、背景下。本文重点研究并剖析了垂直搜索引擎及其相关的新兴技术。主要研究内容有如下几个方面:1.探讨了垂直搜索引擎的研究背景和实际应用。2.对搜索引擎的相关技术进行了比较深入的研究。3.阐述了Lucene和Heritrix的基本原理和使用方法。4.将Lucene与Heritrix同Web技术融合实现对新闻领域的垂直搜索引擎系统。【关键词】Lucene,网络爬虫,垂直搜索引擎,中文分词Researchandimplementationofnewsvertical盐城师范学院毕业设计searchenginebasedonLuceneandHeritrixAbstractSincetheer

3、aofWeb2.0,thedatanetworkpresentsexponentially,searchengineshavebecomethebestchoiceforthemajorityofInternetuserstoqueryandbrowsethenetworkinformation.ThecurrentsearchengineusershavemoreinfluencethanteachingareGoogle,Baidu,YAHOOandsoon,theyplaythisroleinnavigationlinks.However,thesegeneralsearch

4、enginesalsohavecertainlimitations,suchassearchengineinformationoverloadcausedbytheproblemofsearchdepth,queryresultsarenotaccurate.Verticalsearchenginewasborninthisbackground.Thispaperfocusesontheresearchandanalysisoftheverticalsearchengineanditsrelatedemergingtechnologies.Themainresearchtasksa

5、reasfollows:1discussesthebackgroundandthepracticalapplicationoftheverticalsearchengine.2Thekeytechnologiesofsearchenginearestudied.3describesthebasicprincipleandmethodofusingLuceneandHeritrix.4LuceneandHeritrixwithWebtechnologytorealizetheinformationintegrationframeworkofverticalsearchenginesy

6、stemonthefieldofnews.[Keywords]Lucene,webcrawler,verticalsearchengine,Chinesewordsegmentation盐城师范学院毕业设计目录1绪论11.1研究背景与应用前景11.2本文的主要工作11.3论文的结构安排22相关技术研究22.1搜索引擎简介22.1.1搜索引擎的基本原理22.1.2垂直搜索引擎和通用搜索引擎的异同点32.1.3垂直搜索引擎的特性42.2垂直搜索环境的搭建42.2.1Heritrix开源框架简介42.2.2Heritrix主要组件包含的类52.3Lucene开源技术62.3.1Lucen

7、e开源技术简介62.3.2突出优点和优势介绍82.4SSH开发框架技术82.4.1SSH开发框架介绍82.4.2SSH业务流程和平台优势93搜索引擎系统系统分析设计93.1概要设计93.2使用流程设计103.3模块划分103.4数据库设计113.5界面设计144系统实现144.1信息抓取144.2信息清洗,降噪处理154.3中文分词和文本语句语义分析154.4网页去重164.5封装框架21盐城师范学院毕业设计4.6框架搭建与前后台实现254.6.1前台查询界面的实现2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。