欢迎来到天天文库
浏览记录
ID:5707710
大小:664.50 KB
页数:32页
时间:2017-12-23
《基于网络爬虫的搜索引擎设计与实现—免费毕业设计论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科毕业设计题目:基于网络爬虫的搜索引擎设计与实现系别: 专业:计算机科学与技术班级:学号:姓名:同组人:指导教师:教师职称:协助指导教师:教师职称:摘要本文从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地住,提出了网络蜘蛛的功能和设计要求。在对网络蜘蛛系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络蜘蛛的程序,对其运行结果做了分析。关键字:爬虫、搜索引擎AbstractThepaper,discussingfromtheapplicationofthesea
2、rchengine,searchestheimportanceandfunctionofWebspiderinthesearchengine.andputsforwarditsdemandoffunctionanddesign.OnthebaseofanalyzingWebSpider’ssystemstrtuctureandworkingelements.thispaperalsoresearchesthemethodandstrategyofmultithreadingscheduler,Webpagecrawli
3、ngandHTMLparsing.Andthen.aprogramofwebpagecrawlingbasedonJavaisappliedandanalyzed.Keyword:spider,searchengine目录摘要2Abstract3一、项目背景51.1搜索引擎现状分析51.2课题开发背景61.3网络爬虫的工作原理8二、系统开发工具和平台92.1关于java语言92.2Jbuilder介绍102.3servlet的原理12三、系统总体设计143.1系统总体结构143.2系统类图14四、系统详细设计174.1
4、搜索引擎界面设计174.2servlet的实现194.3网页的解析实现204.3.1网页的分析204.3.2网页的处理队列214.3.3搜索字符串的匹配224.3.4网页分析类的实现224.4网络爬虫的实现25五、系统测试33六、结论35致谢35参考文献36一、项目背景1.1搜索引擎现状分析互联网被普及前,人们查阅资料首先想到的便是拥有大量书籍的图书馆,而在当今很多人都会选择一种更方便、快捷、全面、准确的方式——互联网.如果说互联网是一个知识宝库,那么搜索引擎就是打开知识宝库的一把钥匙.搜索引擎是随着WEB信息的迅速增
5、加,从1995年开始逐渐发展起来的技术,用于帮助互联网用户查询信息的搜索工具.搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的.目前搜索引擎已经成为倍受网络用户关注的焦点,也成为计算机工业界和学术界争相研究、开发的对象.目前较流行的搜索引擎已有Google,Yahoo,Infoseek,baidu等.出于商业机密的考虑,目前各个搜索引擎使用的Crawler系统的技术内幕一般都不公开,现有的文献也仅限于概要性介绍.随着Web信息资源呈指数级增长及
6、Web信息资源动态变化,传统的搜索引擎提供的信息检索服务已不能满足人们日益增长的对个性化服务的需要,它们正面临着巨大的挑战.以何种策略访问Web,提高搜索效率,成为近年来专业搜索引擎网络爬虫研究的主要问题之一。1.2课题开发背景目前虽然有很多种搜索引擎,但各种搜索引擎基本上由三个组成部分:(1)在互联网上采集信息的网页采集系统:网页采集系统主要使用一种工作在互联网上的采集信息的“网络蜘蛛”。“网络蜘蛛”实际上是一些基于web的程序,利用主页中的超文本链接遍历Web.利用能够从互联网上自动收集网页的“网络蜘蛛”程序,自动
7、访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集到网页数据库中。(2)对采集到的信息进行索引并建立索引库的索引处理系统:索引处理系统对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后建立索引并存人到网页索引数据库中.索引数据库可以采用通用的大型数据库,如Oracle,Sy
8、base等,也可以自己定义文件格式进行存放.为了保证索引数据库中的信息与Web内容的同步,索引数据库必须定时更新,更新频率决定了搜索结果的及时性.索引数据库的更新是通过启动“网络蜘蛛”对Web空间重新搜索来实现的.(3)完成用户提交查询请求的网页检索器:网页检索器一般是一个在Web服务器上运行的服务器程序,它首先接收用户提交的查询
此文档下载收益归作者所有