基于网络爬虫的搜索引擎设计与实现

基于网络爬虫的搜索引擎设计与实现

ID:27301540

大小:592.50 KB

页数:37页

时间:2018-12-02

基于网络爬虫的搜索引擎设计与实现_第1页
基于网络爬虫的搜索引擎设计与实现_第2页
基于网络爬虫的搜索引擎设计与实现_第3页
基于网络爬虫的搜索引擎设计与实现_第4页
基于网络爬虫的搜索引擎设计与实现_第5页
资源描述:

《基于网络爬虫的搜索引擎设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科毕业设计题目:基于网络爬虫的搜索引擎设计与实现系别: 专业:计算机科学与技术班级:学号:姓名:同组人:指导教师:教师职称:协助指导教师:教师职称:2008年2月5日摘要本文从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地住,提出了网络蜘蛛的功能和设计要求。在对网络蜘蛛系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络蜘蛛的程序,对其运行结果做了分析。关键字:爬虫、搜索引擎AbstractThepaper,discussingfromtheapplicationofthe

2、searchengine,searchestheimportanceandfunctionofWebspiderinthesearchengine.andputsforwarditsdemandoffunctionanddesign.OnthebaseofanalyzingWebSpider’ssystemstrtuctureandworkingelements.thispaperalsoresearchesthemethodandstrategyofmultithreadingscheduler,Webpagecrawlinga

3、ndHTMLparsing.Andthen.aprogramofwebpagecrawlingbasedonJavaisappliedandanalyzed.Keyword:spider,searchengine目录摘要2Abstract3一、项目背景51.1搜索引擎现状分析51.2课题开发背景61.3网络爬虫的工作原理8二、系统开发工具和平台92.1关于java语言92.2Jbuilder介绍102.3servlet的原理12三、系统总体设计143.1系统总体结构143.2系统类图14四、系统详细设计174.1搜索引擎界面设计1

4、74.2servlet的实现194.3网页的解析实现204.3.1网页的分析204.3.2网页的处理队列214.3.3搜索字符串的匹配224.3.4网页分析类的实现224.4网络爬虫的实现25五、系统测试33六、结论35致谢35参考文献36一、项目背景1.1搜索引擎现状分析互联网被普及前,人们查阅资料首先想到的便是拥有大量书籍的图书馆,而在当今很多人都会选择一种更方便、快捷、全面、准确的方式——互联网.如果说互联网是一个知识宝库,那么搜索引擎就是打开知识宝库的一把钥匙.搜索引擎是随着WEB信息的迅速增加,从1995年开始逐渐发展起

5、来的技术,用于帮助互联网用户查询信息的搜索工具.搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的.目前搜索引擎已经成为倍受网络用户关注的焦点,也成为计算机工业界和学术界争相研究、开发的对象.目前较流行的搜索引擎已有Google,Yahoo,Infoseek,baidu等.出于商业机密的考虑,目前各个搜索引擎使用的Crawler系统的技术内幕一般都不公开,现有的文献也仅限于概要性介绍.随着Web信息资源呈指数级增长及Web信息资源动态变化,传统的搜索引擎提供

6、的信息检索服务已不能满足人们日益增长的对个性化服务的需要,它们正面临着巨大的挑战.以何种策略访问Web,提高搜索效率,成为近年来专业搜索引擎网络爬虫研究的主要问题之一。1.2课题开发背景目前虽然有很多种搜索引擎,但各种搜索引擎基本上由三个组成部分:(1)在互联网上采集信息的网页采集系统:网页采集系统主要使用一种工作在互联网上的采集信息的“网络蜘蛛”。“网络蜘蛛”实际上是一些基于web的程序,利用主页中的超文本链接遍历Web.利用能够从互联网上自动收集网页的“网络蜘蛛”程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,

7、重复这过程,并把爬过的所有网页收集到网页数据库中。(2)对采集到的信息进行索引并建立索引库的索引处理系统:索引处理系统对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后建立索引并存人到网页索引数据库中.索引数据库可以采用通用的大型数据库,如Oracle,Sybase等,也可以自己定义文件格式进行存放.为了保证索引数据库中的

8、信息与Web内容的同步,索引数据库必须定时更新,更新频率决定了搜索结果的及时性.索引数据库的更新是通过启动“网络蜘蛛”对Web空间重新搜索来实现的.(3)完成用户提交查询请求的网页检索器:网页检索器一般是一个在Web服务器上运行的服务器程序,它首先

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。