【硕士论文】曲阜师范大学校园网搜索引擎的设计与实现.pdf

【硕士论文】曲阜师范大学校园网搜索引擎的设计与实现.pdf

ID:32034173

大小:2.34 MB

页数:53页

时间:2019-01-30

【硕士论文】曲阜师范大学校园网搜索引擎的设计与实现.pdf_第1页
【硕士论文】曲阜师范大学校园网搜索引擎的设计与实现.pdf_第2页
【硕士论文】曲阜师范大学校园网搜索引擎的设计与实现.pdf_第3页
【硕士论文】曲阜师范大学校园网搜索引擎的设计与实现.pdf_第4页
【硕士论文】曲阜师范大学校园网搜索引擎的设计与实现.pdf_第5页
资源描述:

《【硕士论文】曲阜师范大学校园网搜索引擎的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、山东大学硕士学位论文摘要随着网络的迅猛发展,一些企业和校园内部局域网的信息量也大幅增长。人们发现即使是获取局域网的信息也变得困难。目前虽然己经有google、百度这些优秀的通用搜索引擎,但是它们并不能很好的解决这个问题。一方面,通用搜索引擎的覆盖率都不太高,很多局域网的信息都无法完全搜集:另一方面,通用搜索引擎的页面更新比较慢,信息的实时性、准确性都无法保证。因此,为了提高局域网内信息检索的效率,本文设计并实现了适用于局域网信息检索的小型搜索系统。本文以曲阜师范大学校园网为平台,在深入研究了通用搜索引擎基本原理、,架构设计和核心技术的基础上,结合曲阜师范大学的实际需求,构建了一

2、个运行稳定,性能良好且具有可扩展性的小型搜索引擎系统。论文不仅完成了对整个搜索引擎系统框架的设计,而且基本上完成了所有的开发测试工作。本文论述了系统开发的背景和国内外搜索引擎技术发展现状,分析了小型搜索系统的需求,明确了系统开发过程中要解决的问题,提出了具体的设计方案。论文的主要工作以及创新如下1.详细论述系统需求、系统设计原则和目标,明确了系统功能,设计出详细的系统流程图。2.研究了网络蜘蛛页面采集原理与算法,完成了对本地页面集批量更新:采用了权威页面算法,及时发现并抓取网络中出现的新鲜页面,进一步提高了信息的实时性。3.设计并实现了页面的解析模块,以到达提取文本内容的目的,

3、方便索引。4.针对搜索结果中出现大量的重复页面的问题,研究了MD5算法实现对索引中重复页面的消除,部分优化了搜索结果5.设计了简洁实用的用户界面,并对系统进行了测试和性能分析。关键词:搜索引擎;校园网:nutch;网络爬虫;Lucene山东大学硕士学位论文第1章绪论1.1研究背景随着网络技术的不断发展以及网络应用越来越普及,网络信息已经成为人们最重视的信息获取途径之一。然而网络信息的数据量巨大,如何让用户在浩瀚的网络信息中更全、更准、更有效地找到对自己有用的信息成为了网络信息检索领域一个长期研究的课题。现在,网络搜索引擎己成为全球范围内研究、教学、商务等活动中不可缺少的重要工具

4、,在一定程度上解决了网络信息资源查找的问题。不仅是我们个人对搜索引擎的应用越来越频繁,利用它获取更多更有效的信息,企业对搜索引擎也越来越重视,利用搜索引擎爬行企业内部网站或文件系统的资料,以便需要时进行搜索。另~方面,对于企业来讲,提高企业竞争优势是企业长期发展的前提。为提高企业自身的竞争优势,常常需要进行企业竞争对手分析,为此及时掌握竞争对手的各种情况,就成为企业竞争情报中的一个重要环节。随着企业信息化建设的不断发展,通过互联网,对企业门户网站进行有效的挖掘,就自然成为收集竞争对手情报的一个重要的手段。随着网络的迅猛发展,校园内部局域网的信息量也大幅增长,利用通用搜索引擎来获

5、取局域网的信息效率不高。实际上,在人们每天浏览的web信息中,所在的局域网信息占了很大一部分。如何检索这些局域网的信息也成了信息检索发展的一个重要方向。相对互联网而言,局域网的数据量要小的多,局域网在信息采集、索引以及更新等方面都更为方便,它所提供的局域网内的信息搜索结果将更准确和及时。因此,在局域网内建立小型搜索引擎对获取信息是很有帮助的l¨。Google在2006年初发表锁定小型企业、包含软/硬件的GoogleM“搜索装置,最便宜的GoogleMini可搜索5万个文件,售价为1995美元;微软则在2007年11月初释出SearchServer2008ExpressRC版,这

6、也是微软首款免费的企业端搜索软件,该软件采用SharePointServer2007的搜索核心,涵盖所有微软产品及档案的搜索,正式版预计在明年初问世。IBM也加入了企业搜索研发队伍,IBMOmniFindYahootEdition支持50万笔文件的搜索,以及一般网络信息的搜索。山东大学硕士学位论文1.2搜索引擎的发展随着近几年小型搜索引擎的快速发展。在国内,一方面,很多基于主题领域的小型搜索引擎得到很好的发展,一些音乐搜索引擎以及医药方面的搜索都有很好的应用。另一方面,在越来越多的学校、企业、比较大型的网站如BBS都开始建立了自己的搜索引擎。在国外,比较著名的有:美国教育资源信

7、息搜索的AskERIC,实现医药文献搜索的Highwire等,小型专业的搜索引擎涵盖了很多方面。Google公司在2007年决定向小型网站提供专门的搜索服务。这些都表明,小型专用的搜索引擎将在人们获取Web信息中发挥更重要的作用。在小型搜索引擎快速发展的同时,越来越多的人致力于研究和发展这些小型搜索引擎开发技术,Lucene和Nutch是其中的最为优秀的代表成果。Lucene是一个高性能、纯Java的全文检索引擎,完全开源、免费。Lucene几乎适合于任何需要全文检索的应用,尤其是跨平台的应

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。