薛飞_毕业设计论文正文

薛飞_毕业设计论文正文

ID:30119818

大小:414.94 KB

页数:38页

时间:2018-12-27

薛飞_毕业设计论文正文_第1页
薛飞_毕业设计论文正文_第2页
薛飞_毕业设计论文正文_第3页
薛飞_毕业设计论文正文_第4页
薛飞_毕业设计论文正文_第5页
资源描述:

《薛飞_毕业设计论文正文》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、本科毕业设计说明书(论文)第38页共38页1绪论1.1课题的研究背景随着计算机网络的不断发展,越来越多的用户以及开发人员深切地感受到了计算机技术在搜索领域中的作用越来越重要,越来越要求搜索引擎执行效率。掌握计算机是生活的需要,是职业的需要,更是产业发展的需要,更是为了创造更高的经济利润的需要。信息在社会和经济的发展中所起的作用越来越为人们所重视。随着网络的迅速发展,万维网称为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。在计算机的三大主要应用领域(科学计

2、算、数据处理与过程控制)中,数据处理的比重约占70%左右。计算机作为信息处理的工具,为适应数据处理需求的迅速提高,满足各类信息系统对数据管理的要求,在文件系统的基础上发展起了数据库系统。数据库技术产生于60年代末,70年代初期,其主要目的是有效地管理和存取大量的数据资源。数据库技术主要研究如何存储、使用和管理数据,是计算机数据管理技术发展的最新阶段。数据库存储的是通用化的相关数据集合,它不仅包括数据本身,而且包括数据之间的联系。30多年来,数据库在理论上、实现技术上均得到很大的发展,研制出许多商用数据库管理系统,使得计算机应用渗透到各行各业

3、的各类管理工作中。现在,数据库技术已成为计算机领域里最重要的技术之一,是软件学科的一个独立分支。近年来,数据库技术和计算机网络技术的发展相互渗透、相互促进,已成为当今计算机领域内发展迅速、应用广泛的两大领域。数据库系统是数据处理的核心机构,售楼管理系统、办公自动化系统、决策支持系统等都是使用了数据库管理系统或数据库技术的计算机应用系统。互联网已经进入大家的生活,利用互联网来获取有价值的信息势在必行。本课题主要是实现一个搜索引擎,主要功能是抓取网络上的网页中的信息,进行过滤返回相关有用的信息。通过本系统,用户只需输入关键字,系统进行处理后,将

4、会返回与关键字相关联的信息。1.2课题的研究现状目前为止,随着互联网的普及,使用计算机的人越来越多,那么需要查找信息的本科毕业设计说明书(论文)第38页共38页的功能就越显得重要。从而使得搜索引擎应需求而生,搜索引擎作为一个辅助人们检索信息的工具已经显得越来越重要。搜索引擎按其工作方式可以分为三种,分别是全文搜索引擎,目录搜索类引擎和元搜索引擎。全文搜索引擎是常用的搜索引擎,大家最熟悉的就是国外的代表Google,和国内的百度。它们通常都是提取各个网站的网页文字存放在建立的数据库中,检索与用户查询条件匹配的相关记录,然后按其自己设定的排列数

5、序将结果返回给用户。目录索引,就是将网站分类,然后存放在响应的目录里,用户在查询所需要的内容时有两种选择,一种是关键字搜索,另一种是按分类目录一层一层的查找。目录索引只能说有搜索功能,但仅仅是按照目录分类的网站链接列表。用户完全可以不用进行关键字查询,仅靠分类目录也可以找到需要的信息。目录搜索型引擎中最具代表性的是Yahoo。元搜索引擎可以同时在其他多个引擎上进行搜索,将搜索结果进行统一处理,并将结果以统一的格式返回给用户。正因为如此,这类搜索引擎的有点是返回结果的信息量更全面,但是缺点就是无用的信息太多不能准确的找到用户所需要的结果。在搜

6、索结果排列方面,不通的元搜索引擎有不通的结果排列的方式,如Dogpile,就直接按来源引擎排列搜索结果,如Vivisimo,是按自定的规则将结果重新进行排列。网络快速发展的今天,互联网承载着海量的信息,能够准确快速的提取我们所需要的信息是现在的挑战。传统的搜索引擎有Yahoo,Google,百度等,这些检索信息的工具是每天访问互联网的必经之路。但是,这些传统性搜索引擎存在着局限性,它不能全面的准确的找到所需要的信息,也会使一些和需求无关的内容一起搜索到。严重的降低了使用这些信息的效率,所以说提高检索信息的速度和质量是一个专业搜索引擎的主要研

7、究内容。1.3课题的研究意义网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL本科毕业设计说明书(论文)第38页共38页,并重复上述过程,直到达到系统的某一条件时停止。

8、另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。