欢迎来到天天文库
浏览记录
ID:39514052
大小:2.11 MB
页数:42页
时间:2019-07-04
《毕业论文--基于Lucene和Heritrix的新闻垂直搜索引擎的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、盐城师范学院毕业设计毕业设计基于Lucene和Heritrix的新闻垂直搜索引擎的研究与实现学生姓名学院专业班级学号指导教师2016年5月16日基于Lucene和Heritrix的新闻垂直搜索引盐城师范学院毕业设计擎的研究与实现摘要自Web2.0时代以来,网络的信息数据量呈现出几何倍数的增长,使得搜索引擎成为广大网络用户快速查询和浏览网络信息的最佳选择。目前搜索引擎中比教有影响的且用户量比较大的有谷歌、百度、雅虎等,它们起着链接导航的作用。但是,这些通用搜索引擎也存在着一定的局限性,如:搜索引擎的信息量过大而造成了搜索的深度不够、查询的结果不够准确等问题。垂直搜索引擎便诞生在这样的
2、背景下。本文重点研究并剖析了垂直搜索引擎及其相关的新兴技术。主要研究内容有如下几个方面:1.探讨了垂直搜索引擎的研究背景和实际应用。2.对搜索引擎的相关技术进行了比较深入的研究。3.阐述了Lucene和Heritrix的基本原理和使用方法。4.将Lucene与Heritrix同Web技术融合实现对新闻领域的垂直搜索引擎系统。【关键词】Lucene,网络爬虫,垂直搜索引擎,中文分词Researchandimplementationofnewsvertical盐城师范学院毕业设计searchenginebasedonLuceneandHeritrixAbstractSincetheer
3、aofWeb2.0,thedatanetworkpresentsexponentially,searchengineshavebecomethebestchoiceforthemajorityofInternetuserstoqueryandbrowsethenetworkinformation.ThecurrentsearchengineusershavemoreinfluencethanteachingareGoogle,Baidu,YAHOOandsoon,theyplaythisroleinnavigationlinks.However,thesegeneralsearch
4、enginesalsohavecertainlimitations,suchassearchengineinformationoverloadcausedbytheproblemofsearchdepth,queryresultsarenotaccurate.Verticalsearchenginewasborninthisbackground.Thispaperfocusesontheresearchandanalysisoftheverticalsearchengineanditsrelatedemergingtechnologies.Themainresearchtasksa
5、reasfollows:1discussesthebackgroundandthepracticalapplicationoftheverticalsearchengine.2Thekeytechnologiesofsearchenginearestudied.3describesthebasicprincipleandmethodofusingLuceneandHeritrix.4LuceneandHeritrixwithWebtechnologytorealizetheinformationintegrationframeworkofverticalsearchenginesy
6、stemonthefieldofnews.[Keywords]Lucene,webcrawler,verticalsearchengine,Chinesewordsegmentation盐城师范学院毕业设计目录1绪论11.1研究背景与应用前景11.2本文的主要工作11.3论文的结构安排22相关技术研究22.1搜索引擎简介22.1.1搜索引擎的基本原理22.1.2垂直搜索引擎和通用搜索引擎的异同点32.1.3垂直搜索引擎的特性42.2垂直搜索环境的搭建42.2.1Heritrix开源框架简介42.2.2Heritrix主要组件包含的类52.3Lucene开源技术62.3.1Lucen
7、e开源技术简介62.3.2突出优点和优势介绍82.4SSH开发框架技术82.4.1SSH开发框架介绍82.4.2SSH业务流程和平台优势93搜索引擎系统系统分析设计93.1概要设计93.2使用流程设计103.3模块划分103.4数据库设计113.5界面设计144系统实现144.1信息抓取144.2信息清洗,降噪处理154.3中文分词和文本语句语义分析154.4网页去重164.5封装框架21盐城师范学院毕业设计4.6框架搭建与前后台实现254.6.1前台查询界面的实现2
此文档下载收益归作者所有