博客资源的爬取与检索

博客资源的爬取与检索

ID:33325447

大小:3.04 MB

页数:61页

时间:2019-02-24

博客资源的爬取与检索_第1页
博客资源的爬取与检索_第2页
博客资源的爬取与检索_第3页
博客资源的爬取与检索_第4页
博客资源的爬取与检索_第5页
资源描述:

《博客资源的爬取与检索》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、山东大学硕十学位论文1.1系统开发背景第1章绪论目前,互联网上的信息资源正以爆炸式的速度迅猛增多,信息的表现形式也如雨后春笋般层出不穷。博客,播客,网络硬盘等多种新兴服务把原本较为单一的网页形式装扮的丰富多彩。在这浩如烟海的网络世界里,如何方便快捷的为网络用户提供检索服务已成为众多科研商业领域的热门话题。对于传统的网页形式,现今的搜索引擎技术已日趋成熟,用户的检索要求已得到了相当大程度的满足。但是面对诸多的新兴网页形式,检索服务仍有很多需要改进之处。特别是对于博客这一逐渐普及的网络产物,需要更为强大的检索支持才能将其作用发挥的淋漓尽致。因此有别于传统网页检索,专门的博客搜索引擎已

2、成为众多商家和科研机构研究的对象。同时,作为校园网搜索引擎的一部分,博客检索也有其重要地位。随着校园网建设的日趋成熟,越来越多的学生参与到了互联网这个大环境里。学生作为社会中的一个特殊团体,很大程度上以有关校园学习生活的话题在网络上连结在一起。继而面向校园的博客检索成为搜索引擎技术的一个重要应用。从而,如何使博客检索面向特定的主题也成为现今搜索引擎技术研究的热点话题。目前虽然已经有了像Google、百度这样专业的通用搜索引擎,而且博客检索功能竞相被推出,但是它们并不能适用于所有的情况和需要。毕竟检索中的很多细节,诸如排序方法等都作为商业机密而对外保密;明显很多情况下排序先后包含了

3、竞价因素。而对校园网搜索来说,一个非人工参与的排序结果是非常重要的,特别是对于博客检索这种以访问量作为重要排序参考依据的网络形式而言。另外,由于网络上用户的群体性很强,如校园检索一样,面向特定群体的主题检索也变得尤为重要。然而网络上信息量如此之大,全面收录网络资源进而进行主题筛选所要求的巨量空间时间都变得越来越无法接受,因此面向特定的主题爬取也成为一种必然的趋势。这都是当今流行的搜索引擎技术所需要改进的地方。因此,本着整合校园网博客资源的目的,为使博客检索的时效性,主题性更山东大学硕十学位论文为突出,本文设计并实现了一个灵活、可配置、具有良好扩展性的博客搜索引擎。1.2国内外博客

4、搜索引擎发展现状博客检索作为搜索引擎的扩展功能,由传统搜索引擎技术改进而来;可以说一个搜索引擎功能的强弱直接影响了架构其上的博客搜索引擎的好坏。因此有必要对现有搜索引擎技术进行细致的学习。以下将对博客搜索引擎的底层技术作简单的概述。1.2.1博客搜索引擎的原型随着internet网的发展,网络信息资源迅猛增多,为了更方便有效的利用网络资源,产生了对搜索引擎的需求。然而互联网上的信息资源如此庞大,作为世界最强大的google搜索引擎也仅仅达到近百分之十的覆盖率∞1。自1994年起,Web搜索引擎技术逐步完善,经历了三代发展阶段‘11。第一代搜索引擎出现于1994年,主要特征为集中式

5、检索。其检索特征为爬取页面数量少,己爬到的页面不更新;检索速度慢;使用IR(Info瑚ationRetrieval)、网络、数据库等技术,虽然初步实现了web网检索,但结果很难令人满意。第二代搜索引擎系统大约出现在1996年,大多采用分布式检索方案,即多个微型计算机协同工作来提高数据规模、响应速度和用户数量。它们一般都保持一个大约5千万网页的索引数据库,每天能够响应l千万次用户检索请求。第三代搜索引擎系统出现在1998年到2000年间,这一时期是搜索引擎空前繁荣的时期。第三代搜索引擎的发展有如下几个特点:(1)索引数据库的规模继续增大,~般的商业搜索引擎都保持在几千万甚至上亿个网

6、页。(2)除了一般意义上的搜索以外,开始出现主题搜索和地域搜索很多小型的垂直门户站点开始使用该技术。(3)由于搜索返回数据量过大,检索结果相关度评价成为研究的焦点。相关的研究又可以分为两类:一类是对超文本链的分析,始于Stanford大学的2山东大学硕+学位论文Google系统‘21。在这方面作出了很大的贡献:另一类是用户信息的反馈,Direct卜lit系统采用的就是这种方法。按照信息搜集方法和服务提供方式的不同搜索引擎系统可以分为三大类D1(1)目录式搜索引擎:该类型以著名搜索引擎yahoo为代表。以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息

7、置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而己。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。(2)机器人搜索引擎:由一个称为网络蜘蛛(WebSpider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器(Ind

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。