毕业论文--基于java小型搜索引擎的研究与实现3

毕业论文--基于java小型搜索引擎的研究与实现3

ID:28056716

大小:191.35 KB

页数:22页

时间:2018-12-07

毕业论文--基于java小型搜索引擎的研究与实现3_第1页
毕业论文--基于java小型搜索引擎的研究与实现3_第2页
毕业论文--基于java小型搜索引擎的研究与实现3_第3页
毕业论文--基于java小型搜索引擎的研究与实现3_第4页
毕业论文--基于java小型搜索引擎的研究与实现3_第5页
资源描述:

《毕业论文--基于java小型搜索引擎的研究与实现3》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于java小型捜索引擎的研究与实现摘要:随着互联网的不断普及,网络用户从网络获取信息的耑求不断的扩大,搜索引幣成了人们FI常工作学习不可缺少的工具,大量的搜索W擎应运而生,如Google,Baidu、gougou等。每个搜索引擎的侧重点不同,一方面,通用搜索引擎的覆盖率都不太商,很多局域网的信息都无法完全搜集;另一方面,通川搜索引繁的页面更新比较慢,信息的实时性、准确性都无法保证。W此,为了提高局域M内信息检索的效率,本文以小型局域网为平台,在深入研究了通用搜索引幣基本原理、架构设计和核心技术的基础上,结合小型搜索引擎的个性化需求,构建了一•个运行稳定,性能良好

2、且具奋可扩展性的小型搜索引擎系统。关键字:元节点搜索引繁AjaxHtmlUnit第一章引言而对海量的网络资源,搜索引幣为所有网民提供了一个大海淘金的机会,茲不夸张的说,所侖的川户都可以从搜索出发到达B己想去的M上任何一个地方。因此它也成为除了电子邮件以外最多人使川的网上服务。搜索引擎技术伴随着万维网的发展是引人注n的。搜索引擎大约经历了三代的更新发展:第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而.R.K•检索速度非常慢,一般都要等待10秒其至更长的时叫。在女现技术上也基木沿用较力成熟的IR(I

3、nformationRetrieval)、网络、数据序等技术,相当于利用一些己有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫WorldWebWorm(WWWW)平均每天承受大约1500次査询。1996年出现的第二代搜索引擎系统人多釆用分布式方案(多个微型计算机协同工作)来提高数裾规模、响应速度和用户数量,它们一•般都保持-个大约50,000,000网页的索引数据库,毎天能够响应10,000,000次用广检索请求。1997年H月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称

4、他们每天大概要承受20,000,000次查询。2000年搜索引擎2000年人会上,按照Google公司总裁LarryPage的演讲,Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页,而且以每天30台的速度h'd这个微机集群里添加电脑,以仅持与M络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页,〒均速度是每秒48.5个网页,—天可以搜集超过4,000,000网页搜索引擎在国内外因特网领域被广泛使川,然而他的含义却不尽和同。在美国搜索引擎通常指的是基于因特网的搜索引擎,他们通过M络机器人程序收集上千万到几亿个网

5、页,并.F1.每一个同都被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引擎包括FirstSearch、Google、HotBot等。在中国,搜索引擎通常指基PM站FI录的搜索服务或是特定网站的搜索服务,本人这規研究的是基丁因特M的搜索技术。第二章搜索引擎的结构2.1系统概述搜索引擎足根据川户的赍询诘求,按照一定算法从索引数据屮赍找信息返冋给川户。为了保证川户查找信总的精度和新鲜度,搜索引擎需要建立并维护一个庞人的索引数据库。一般的搜索引擎由网络机器人程序、索引与搜索程序、索引数据库等部分组成。2.2搜索引擎的构成2.2.1网络机器人网络机器人也称为“网络

6、蜘蛛”(Spider),是一个功能很强的WEB扫描程序。它可以在扫描WEB页而的同时检索的超链接并加入扫描队列等待以P扫描。因为WEB中广泛使用超链接,所以一个Spider程序理论上可以访问整个WEB页面。为了保证网络机器人遍历信息的广度和深度需要设定一些重要的链接并制定相关的扫描策略。2.2.2索引与搜索网络机器人将遍历得到的页面存放在临时数据库屮,如果通过SQLH接杏询信息速度将会难以忍受。为了提高检索效率,需要建立索引,按照倒排文件的格式存放。如果索引不及时跟新的诘,用户用搜索引擎也不能检索到。用户输入搜索条件P搜索程序将通过索引数据库进行检索然后把符合杏询

7、要求的数裾庠按照一定的策略进行分级排列井且返IN给用户。2.2.3Web服务器客户一般通过浏览器进行查询,这就盂要系统提供Web服务器并且与索引数据库进行连接。客户在浏览器中输入查洵条件,Web服务器接收到客户的查洵条件后在索引数裾库屮进行杏询、排列然P返

8、叫给客户端。2.3搜索引擎的主要指标及分析搜索引擎的主要指标有响应吋间、召回率、准确率、相关度等。这些指标决定了搜索引擎的技术桁标。搜索引擎的技术指标决定Y搜索引擎的评价指标。好的搜索引繁应该足具奋较快的反应速度和商召回率、准确率的,当然这些都耑要搜索引擎技术指标来保障。召lu

9、率:一次搜索结果中符合用户耍求的

10、数鬥与用户

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。