毕业设计(论文)-基于Lucene的校园搜索系统开发

毕业设计(论文)-基于Lucene的校园搜索系统开发

ID:35441440

大小:473.00 KB

页数:38页

时间:2019-03-24

毕业设计(论文)-基于Lucene的校园搜索系统开发_第1页
毕业设计(论文)-基于Lucene的校园搜索系统开发_第2页
毕业设计(论文)-基于Lucene的校园搜索系统开发_第3页
毕业设计(论文)-基于Lucene的校园搜索系统开发_第4页
毕业设计(论文)-基于Lucene的校园搜索系统开发_第5页
资源描述:

《毕业设计(论文)-基于Lucene的校园搜索系统开发》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要校园网已经成为高校信息资源共享和管理的重要平台,网络构建目的不同使得校园网与互联网之间存在着较大差异,这些差异导致校园网搜索引擎的实现需要引进新的技术和方法。本文通过分析比较校园网和公用互联网的区别,统计分析并总结出校园网信息资源的特点,并基于这些特点提出了多维度量排序算法等技术,以提高搜索引擎查询准确度,实际构建的校园网搜索系统表现出比传统搜索引擎更优的搜索性能。在此基础上,本文利用基于Java的全文检索工具包Lucene开发定制了一个基于Lucene的校园网搜索系统。关键词:搜索引擎;Lucene;排序算法;相关度iiiAbstractCampusNetwork

2、isanimportantplatformofuniversityinformationresources,whichdiffersfromInternetinmanyaspects.Newmethodsandalgorithmsisusedtobuildagooduniversityinformationresourcessearchengine.BasedontheanalysesofthedifferencesbetweencampusnetworkandInternet,correspondingsolutionssuchasmultiplemetricsran

3、kingalgorithmisproposed.ArealuniversityinformationresourcessearchsystemisconductedandtheexperimentalresultsshowthatsearchsystemhasmanyadvantagescomparedwiththegeneralInternetsearchengine.ThisarticledescribeshowtodevelopasearchsystemofcampusnetworkforourneedquicklybasedonLucenewhichisapow

4、erfull-textretrievaltools.Keywords:searchEngine;Lucene;rankingalgorithm;Relevanceiii目录摘要iAbstractii目录iii第1章绪论11.1搜索引擎的概念11.2校园网搜索的特点21.3论文研究内容及其意义4第2章Lucene研究62.1Lucene简介62.2Lucene的应用、特点及优势62.3Lucene系统结构分析72.4Lucene数据流分析9第3章校园网搜索系统设计113.1体系结构设计113.2整体设计流程图123.3引擎设计主要类图133.3.1语言分析类133.3.2

5、文档结构类143.3.3索引管理类143.3.4查询分析和检索类173.3.5工具类183.4索引文件存储抽象18第4章校园网搜索系统实现224.1系统主要模块的具体实现224.1.1系统维护接口224.1.2索引器224.1.3查询分析器234.1.4索器244.2关键技术研究254.2.1中文分词254.2.2解析网页及索引入库254.2.3网页排序算法及检索输出264.2.4PDF等异构文本处理30总结与展望32参考文献33致谢34iii基于Lucene的校园搜索系统开发第1章绪论1.1搜索引擎的概念搜索引擎(SearchEngine)指的是一种在Web上应用的软

6、件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。从使用者的角度看,这种软件系统提供一个网页界面,让他通过浏览器提交一个词语或者短语,然后很快返回一个可能和用户输入内容相关的信息列表(常常会是很长一个列表,例如包含1万个条目)。这个列表中的每一条目代表一篇网页,至少有3个元素:标题:以某种方式得到的网页内容的标题。最简单的方式就是从网页的标签中提取的内容。(尽管在一些情况下并不真正反映网页的内容)。URL:该网页对应的“访问地址”。有经验的Web用户常常可以通过这个元素对网页内容的权威性

7、进行判断,例如http://www.people.com上面的内容通常就比http://notresponsible.net(某个假想的个人网站)上的要更权威些(不排除后者上的内容更有趣些)。摘要:以某种方式得到的网页内容的摘要。最简单的一种方式就是将网页内容的头若干字节(例如512)截取下来作为摘要。通过浏览这些元素,用户对相应的网页是否真正包含他所需的信息进行判断。比较肯定的话则可以点击上述URL,从而得到该网页的全文。随着Internet的迅速发展,网上的信息越来越多。如何从浩如烟海的信息中获得自己感兴趣的部分,就成为一个重要的问题

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。