冯业昌_6_1__1_[1].4_

冯业昌_6_1__1_[1].4_

ID:39455700

大小:1.76 MB

页数:60页

时间:2019-07-03

冯业昌_6_1__1_[1].4__第1页
冯业昌_6_1__1_[1].4__第2页
冯业昌_6_1__1_[1].4__第3页
冯业昌_6_1__1_[1].4__第4页
冯业昌_6_1__1_[1].4__第5页
资源描述:

《冯业昌_6_1__1_[1].4_》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、本科毕业设计(论文)Web搜索引擎的分析与设计学院计算机学院专业计算机科学与技术年级班别2003级4班学号3103003198学生姓名冯业昌指导教师何翠红2007年6月3日55摘要随着互联网的不断发展和日益普及,网上的信息量在爆炸式增长,如何在最短时间内找到我们所需要的资料就成了一个非常关键的问题。为了解决这个问题,Web搜索引擎就随之出现了,并得到了飞速发展,现在已经成为互联网上仅次于电子邮件的第二大网络服务。首先,本文讲述了Web搜索引擎的历史和现状。其次,本文介绍了Web搜索引擎的基本原理和技术。再次,本文分析了Web搜索引擎的系统结构,并着重从网络蜘蛛,索引引擎和Web查询

2、服务三个部分进行了详细的描述。与此同时,本文描述了在Java开发环境下,如何设计实现一个利用开源工具包的Web搜索引擎——WebCdf,包括Web信息搜集索引器WebSpider和Web查询服务器Search两个子系统。WebCdf搜索引擎从指定的Web页面开始解析,把获得的链接放入工作队列,在万维网上进行广度优先搜索,并把每个页面的URL地址和文本进行索引存入数据库,然后Web服务器接收客户端请求,从数据库中返回页面信息。本文介绍和研究了一系列与Web搜索引擎相关的技术,包括网页抓取、相关性排序(VSM)、信息提取、信息索引等,这些技术将被应用到文中提出的系统设计方案中。最后,本

3、文简单地讲述了搜索引擎的未来发展趋势。关键词:互联网,搜索引擎,信息提取,Java本设计题目来源于教师的广东大厦网站系统项目,项目编号为:2004113。55AbstractWiththeIncreasingpopularityanddevelopmentofInternet,andwithinformationontheInternetgrowingexplosively,howtofindtheinformationweneedintheshortesttimehasbecomeacrucialproblem.TheoccurrenceoftheWebsearchengineo

4、vercomesthisproblem.Searchenginehasbeendevelopingrapidly,andhasbecomethelargestnetworkservicessecondtoe-mailnow.First,thispapertellsthehistoryandstatusquoofWebsearchengine.Secondly,thispaperintroducesthebasicprinciplesandtechniquesofWebsearchengine.Thirdly,thispaperanalysesWebsearchenginearchi

5、tecture,andgivesadetaileddescriptionofnetworkspider,indexingengineandWebenquiryservice.Atthesametime,thispaperdescribeshowtodesignaWebsearchenginenamedWebCdfwithJavalanguagebyusingopensourcelibrary.WebCdfincludetwosubsystems,oneisWebSpidertogetwebinformationandindexit,andanotherisSearchtosuppl

6、yenquiryservice.WebCdfsearchengineparseadesignatedWebpageatfirst,thenputhyperlinksintoaqueueforBreadthFirstsearchonWWW,thensavetheURLandtextofeachpagetoindexdatabase.Whenwebserverreceivesclient’srequest,webserverwillsearchtherightinformationfromindexdatabasethensendstoclient.Weintroduceandrese

7、archaseriesoftechniquesrelatedtoWebsearchengine,suchascrawling,relevanceranking(VSM),informationextractionandindexing.Thosetechniqueswillbeusedinoursystemdesign.Atlast,thispaperintroducesthetrendofsearchenginebriefly.Keywords:Internet,S

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。