资源描述:
《冯业昌_6_1__1_[1].4_》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、本科毕业设计(论文)Web搜索引擎的分析与设计学院计算机学院专业计算机科学与技术年级班别2003级4班学号3103003198学生姓名冯业昌指导教师何翠红2007年6月3日55摘要随着互联网的不断发展和日益普及,网上的信息量在爆炸式增长,如何在最短时间内找到我们所需要的资料就成了一个非常关键的问题。为了解决这个问题,Web搜索引擎就随之出现了,并得到了飞速发展,现在已经成为互联网上仅次于电子邮件的第二大网络服务。首先,本文讲述了Web搜索引擎的历史和现状。其次,本文介绍了Web搜索引擎的基本原理和技术。再次,本文分析了Web搜索引擎的系统结构,并着重从网络蜘蛛,索引引擎和Web查询
2、服务三个部分进行了详细的描述。与此同时,本文描述了在Java开发环境下,如何设计实现一个利用开源工具包的Web搜索引擎——WebCdf,包括Web信息搜集索引器WebSpider和Web查询服务器Search两个子系统。WebCdf搜索引擎从指定的Web页面开始解析,把获得的链接放入工作队列,在万维网上进行广度优先搜索,并把每个页面的URL地址和文本进行索引存入数据库,然后Web服务器接收客户端请求,从数据库中返回页面信息。本文介绍和研究了一系列与Web搜索引擎相关的技术,包括网页抓取、相关性排序(VSM)、信息提取、信息索引等,这些技术将被应用到文中提出的系统设计方案中。最后,本
3、文简单地讲述了搜索引擎的未来发展趋势。关键词:互联网,搜索引擎,信息提取,Java本设计题目来源于教师的广东大厦网站系统项目,项目编号为:2004113。55AbstractWiththeIncreasingpopularityanddevelopmentofInternet,andwithinformationontheInternetgrowingexplosively,howtofindtheinformationweneedintheshortesttimehasbecomeacrucialproblem.TheoccurrenceoftheWebsearchengineo
4、vercomesthisproblem.Searchenginehasbeendevelopingrapidly,andhasbecomethelargestnetworkservicessecondtoe-mailnow.First,thispapertellsthehistoryandstatusquoofWebsearchengine.Secondly,thispaperintroducesthebasicprinciplesandtechniquesofWebsearchengine.Thirdly,thispaperanalysesWebsearchenginearchi
5、tecture,andgivesadetaileddescriptionofnetworkspider,indexingengineandWebenquiryservice.Atthesametime,thispaperdescribeshowtodesignaWebsearchenginenamedWebCdfwithJavalanguagebyusingopensourcelibrary.WebCdfincludetwosubsystems,oneisWebSpidertogetwebinformationandindexit,andanotherisSearchtosuppl
6、yenquiryservice.WebCdfsearchengineparseadesignatedWebpageatfirst,thenputhyperlinksintoaqueueforBreadthFirstsearchonWWW,thensavetheURLandtextofeachpagetoindexdatabase.Whenwebserverreceivesclient’srequest,webserverwillsearchtherightinformationfromindexdatabasethensendstoclient.Weintroduceandrese
7、archaseriesoftechniquesrelatedtoWebsearchengine,suchascrawling,relevanceranking(VSM),informationextractionandindexing.Thosetechniqueswillbeusedinoursystemdesign.Atlast,thispaperintroducesthetrendofsearchenginebriefly.Keywords:Internet,S