【硕士论文】博客资源的爬取与检索.pdf

【硕士论文】博客资源的爬取与检索.pdf

ID:32024820

大小:4.13 MB

页数:66页

时间:2019-01-30

【硕士论文】博客资源的爬取与检索.pdf_第1页
【硕士论文】博客资源的爬取与检索.pdf_第2页
【硕士论文】博客资源的爬取与检索.pdf_第3页
【硕士论文】博客资源的爬取与检索.pdf_第4页
【硕士论文】博客资源的爬取与检索.pdf_第5页
资源描述:

《【硕士论文】博客资源的爬取与检索.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、山东大学硕十学位论文摘要目前,随着经济文化的发展,互联网信息资源正在急剧增加。信息的表现形式也不断趋于多样化,复杂化,诸如论坛、博客、播客、网络硬盘等各种信息服务竞相发展起来。面对这些浩如烟海的网络信息,人们迫切需要一种有效的方式以快速提取出所需的,有价值的资源。事实证明,搜索引擎正是这样一个非常有效的信息检索工具。Web搜索引擎技术作为计算机与信息产业界争相研究开发的对象,已经日益成熟起来。博客作为一种新兴的网络服务形式,已经被越来越多的人所关注和使用。然而由于其正处于发展阶段,搜索引擎技术在博客检索上的应用明显有待改进。具体

2、来说,博客(blog)是web网上的一种共享空间,用户以日记的形式在该空间上发表文章、图片、影音文件等个人资源。而传统搜索引擎在时效性,覆盖率,页面分析等方面都无法满足用户搜索博客资源时的要求。因此,如何设计研发一款能够准确抓取博客页面,较大程度上覆盖博客资源,更新及时的博客搜索引擎就成为目前搜索引擎研究领域的热点和挑战。同时,作为校园网搜索系统的一部分,该引擎检索的博客资源还应尽量贴近校园生活。如何使一个博客搜索引擎按照特定的主题范围搜索,以及如何对得到的结果自动分类以满足特定人群的要求已成为目前研究的热点话题。使该系统在贴近

3、校园生活的范围内进行搜索正是搜索引擎主题化的一个应用。现在人们广泛使用的知名商用搜索引擎在对博客网页的检索上都有所欠缺。虽然一些服务商也提供了专门的博客搜索功能,但它们在对特定主题以及分类方面仍有很多不足。本文将在传统搜索引擎的基础上设计并实现一个专门用于博客资源检索的搜索引擎系统,并力求使其具有面向主题与自动分类功能,以更好的应用到校园网搜索这一大型项目当中。本文详细说明了该搜索引擎系统的开发过程和方法,对搜索引擎的内部软件组织和数据结构、数据存储方法等内容都进行研究、分析和设计;并介绍了插件机制和分布式处理模型,将它们作为整

4、个系统最基本的部分来设计和实现。本文在研究Web搜索引擎的基本原理、核心技术和处理流程的基础上,结合对博客搜索引擎具体需求的分析,借助基于Java的全文索引软件包Lucene,搭建了博客搜索引擎系统,完成了整个搜索引擎的框架设计和代码实现。关键词:搜索引擎;博客:博客搜索引擎;插件;分布式;Lucene山东火学硕士学位论文ABSTRACTRecently,witIlmedeVelopmentofecono面calaIldculture,themfo肌ationresourseontlleintemetisgro、衍ngr印idl

5、y.ThepresentofttleiIlfbmlationtumsoutt0beV撕ousaJldconlplex.Likebndsofbbs,blog,Video-blog,netlla]rd-disc,allinf.omationservicesaredeVeloping.Facingsomallykindsof砷:emetinfb衄ation,、veneedt0haVeaIle行.ectiVemetIlodtogettlleV砌uIeablein南册ationweneed.Itispr0Vedtllattllebet11

6、eandsearCh—engineisⅡ坨ri曲tsearctlingt001.TbSmdyingdeVelopingobjectofcomputerandinfo眦ationare如thewebsearchengineisbeingmore趾ldmoreperI’eCt.T0beanewlydeVelopedintemetservice,blogisbeingpaidattentiontoandusedbylotSofpeople.ButonitsdeVeloping虬唱e,thesearchengilletechllic印p

7、licatedonblogsearchl粥t0beimpr0Ved.Specificlyspea虹ng,blogisasharespaCeont11emtemet;people惦ethjsspacet0sharearticles,photos,Vidios柚dsoonastlleirdi撕eseve巧day.Bm协描itionalsearchenginecomdnotsatis母tlledem锄dsoftiⅡlee伍ciency,coVeryra_teand锄alyzingofpageswhenuSerssearchforblo

8、gresourses.Sohowtodesigllat),peofsearChenginetllatcancmwlblogpagesaccurately,coVerblogresourSesentirelyisbecomingttlehottopic觚dt王1e

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。