基于领域概念定制的主题爬虫系统的设计和实现

基于领域概念定制的主题爬虫系统的设计和实现

ID:32565428

大小:1.35 MB

页数:48页

时间:2019-02-12

基于领域概念定制的主题爬虫系统的设计和实现_第1页
基于领域概念定制的主题爬虫系统的设计和实现_第2页
基于领域概念定制的主题爬虫系统的设计和实现_第3页
基于领域概念定制的主题爬虫系统的设计和实现_第4页
基于领域概念定制的主题爬虫系统的设计和实现_第5页
资源描述:

《基于领域概念定制的主题爬虫系统的设计和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于领域概念定制的主腰爬虫系统的设计与实现网络爬虫器是一个沿着网络链接漫游web文档集合的程序,它一般驻留在服务器上,通过预先给定的IIIiI,s利用HrrP协议读取(通常为Ge们相应HTML文档,然后分析获得H蹦L文档中的所有的超链接(Hyperlinl【s),以未访问的链接为新的起点,继续获取网络上其他的资源,直到没有新的uRL(uniforIIlResourceLmation)为止141。网络爬虫器的研究开始于上世纪九十年代,被认为世界上第一个爬虫器w锄derer诞生于1993年。W卸der盯自动化程度很高、维护费用低,更强调技术上的创新和提高,也

2、更适合于开展进一步的研究工作,因而成为当前研究的热点。目前,常见的综合大型搜索引擎的优点可以获取范围很广的信息,不足之处在于由于它们涉及领域范围过于广泛,因此在某些特定领域的查询上则不够深入和专业化,整个采集过程中主题性不够突出,页面分类过于杂乱,比如:关于医学专业关键词“耳鼻喉”的查询,Baidu查询仅有大约65万条,其中还包括非专业的医院广告占了相当的数量。针对上述的不足,人们提出了一种面向主题的搜索引擎,它可以在某一个领域内的某一个范围内取得比综合搜索引擎更满意的结果,满足了某些特定用户群体的使用需要。采用基于主题搜索算法设计的爬虫器仅对给定相关网

3、页文档进行搜集,搜索算法在访问网页文档时进行预测分析,从而识别出这些页面是否与主题相关,决定是否采集这些网页文档中所包含的超链接。主题爬虫器可以有效减少无关页面文档的搜集,增加采集页面的规范程度,同时节约带宽,提高信息搜索的效率。因此开展主题爬虫的研究是十分有必要的。1.2目前国内外的研究状况在1994年,出现了最早使用查询来指导爬虫爬行的系统一Fish搜索系统(FishSearchSystem)‘51。后来相继在1998年和1999年出现了Shark搜索系统(SharkScarchSystem)【6】和主题爬虫(FocllscdCmwling)【7一。

4、如今,主题爬虫又有了新的发展,典型的系统有com【9】、IBMFocllsedc删Ⅳl一7】、contextGmpIlsFocllsedcm、vlerll川等。1.2.1CORACORAml】是美国卡内基梅隆大学的A.K.McCall岫和M.Nig锄等人于1999年针对计算机科学设计的一个主题搜索引擎。它利用机器学习(MachiIleLeanlillg)技术,在web上搜索与计算机科学相关的论文,当时它只能搜索Ps格式的论文。如果一篇文章包括题目名、作者、摘要和参考文献那它就被认为是论文。下载Ps格式的论文将其转化为文本格式,再利用马尔科夫模型来找出论文

5、题目、作者、第一章绪论摘要和参考文献,最后利用类似Yalloo目录式的分类模型进行分类。CORA的官方站点在http://co札H帕zbaIlg.com。CORA有很好的扩展性,它可以很好的扩展到其他面向主题搜索的领域中去,对垂直门户网站资源的自动建设具有相当的重要意义。而且cORA思想比较先进,很多科研机构以c0RA作为研究对象。CORA的缺陷在于它没有在预测URL与主题的相关度上作深入的研究,也没有对Web网页进行采集分析。1.2.2IBMFocusedCrawlerIBMF0cusedcrawleII7】是印度理工工学院的学生s.chahaba而在

6、伯克利大学计算机系读博士期间从事的一个项目。在该项目中,作者提出一种新的web资源爬行系统,即主题爬虫(Focllsedcra、vl神.它对主题的定义既不是采用关键词也不是加权矢量,而是一组具有相同主题的网页。尽管称为主题爬虫,但实际上是一整套关于特定资源的自动建设方案,用来建设Web主题资源。该系统的早期版本采用了两个模块:一个是分类器,用来计算下载文档与主题的相关度,同时也用来指导爬行器优先爬行的相关资源;另一个是净化器,用来确定哪些是中心页面。在该系统的改进版本中【”,作者将分类器分成两个,一个用来指导爬行,一个用来计算下载网页与主题的相关度。从而

7、使系统有了更好的性能。1.2.3ConteXt(h印hsFocusedCrawlerCont麟tGmpllsFocu∞dCrawle一1o】是由Diligenli等人研究设计的一种主题爬虫。他们提出了一种通过建立上下文图(ContextGmplls)来学习网页间相互关系的方法。他们先给系统提供一组种子主题页面,然后利用Goo—e提供的反向链接(通过在GoogIe中键入’1i11l【:uu”就可以获得所有指向该网页的页面链接,如:”link:www.)【idi锄.edu.cn”)服务来寻找到所有拥有指向种子页面链接的页面,所有拥有指向种子页面链接的页面被称

8、为第一层页面,而所有拥有指向第一层页面链接的页面被称为第二层页面,依次类推。页面

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。