面向垂直搜索引擎的主题爬行技术研究

面向垂直搜索引擎的主题爬行技术研究

ID:36840686

大小:9.65 MB

页数:146页

时间:2019-05-16

面向垂直搜索引擎的主题爬行技术研究_第1页
面向垂直搜索引擎的主题爬行技术研究_第2页
面向垂直搜索引擎的主题爬行技术研究_第3页
面向垂直搜索引擎的主题爬行技术研究_第4页
面向垂直搜索引擎的主题爬行技术研究_第5页
资源描述:

《面向垂直搜索引擎的主题爬行技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、山东大学博士学位论文面向垂直搜索引擎的主题爬行技术研究姓名:陈竹敏申请学位级别:博士专业:计算机应用技术指导教师:马军20081010山东大学博士学位论文摘要主题爬行是获取WorldWideWeb中特定领域(主题)的网页的关键技术。随着Web的快速增长,以及网络带宽和各种资源的有限性,从中获取全面、准确和高质量的信息变的越发困难。传统(通用)搜索引擎技术呈现出了严重的局限性。(1)对某一查询返回的结果太多且相关性、质量不高。(2)不能满足不同背景、不同目的和不同时期的用户的需求。(3)在索引的全面性、更新的及时性上存在着很大的不足。垂直搜索引擎(VerticalSea

2、rchEngine)被作为解决通用搜索引擎局限性的一种潜在方案,有着智能化、个性化、领域化的特点,从而成为当前学术界和产业界研究的热点。它利用主题爬行(FocusedCrawlingorTopicalCrawling)技术来搜集面向领域(主题)的Web网页,并提供面向主题的检索服务。无疑,主题爬行技术作为垂直搜索引擎的基础与核心,它的性能对垂直搜索引擎的性能至关重要。此外,主题爬行技术还可用于W曲的实时检索、个性化检索、数字图书馆等领域。因此,对主题爬行技术的研究具有重要的学术意义和广阔的应用前景。主题爬行基于这样一个重要的假设:与同一主题相关的网页趋向于互相链接,被

3、称为W曲上的主题局部性。主题爬虫每次从待爬行URLs队列中选择最有希望的链接进行爬行,其目标是保持在主题相关的网页的周围,而不偏离主题。因此,主题爬行在很大程度上能节省硬件和网络资源,提高检索结果的查准率和质量,保证爬行的时新性。但由于W曲是一个高度开放、异构、分布式的信息空间,网页杂乱地散布在全球各个站点上,而且每天以极快的速度更新。相对于巨大、无序的Web信息空间,与某个主题相关的网页是非常有限的,仅仅是整个信息空间的一小部分。而一个理想的主题爬虫需要最大限度的爬行与预定主题最相关的网页,并最小限度的爬行不相关的网页。因此,主题爬行又是一个极富挑战性的研究课题。主

4、题爬行的关键技术有:主题(用户需求)描述、面向主题爬行的网页分块、待爬行URL$优先级计算、主题爬行算法。研究主题爬行技术的目标是提供建立垂直搜索引擎的一般技术和通用算法,通过提高网页搜集的效率和质量来提高垂山东大学博士学位论文直搜索引擎的性能,降低垂直搜索引擎的构造和运行代价。本文以“山东省科技攻关计划项目一垂直检索系统的研究与开发’’为依托,针对上述关键技术展开研究,主要贡献和创新点包括如下几点:(1)提出了一种基于分类法的上下文主题描述(CTD.T,ComextualTopicDescriptionbasedonTaxonomy)方法。CTD.T方法基于ODP(

5、OpenDirectoryProject)来表示主题(用户需求)。对于ODP中的任一主题结点,给出其“上下文主题关键词集合(CTKW,ContextualTopicKeyWords)’’和“主题描述(TD,TopicDescription)”的定义及表示方法。针对直接从ODP中获取CTKW会引入很多噪音结点的问题,提出了一种基于逆路径频率(IVF,InversePathFrequency)对CTKW进行去噪的方法。另外,在对CTKW进行向量表示时,提出了一种基于主题结点在ODP中的相对层次位置来计算其权重的方法。利用CTKW来计算已知信息(网页,锚文本等)与给定主题及

6、其上下文主题的相关度,用来在线指导主题爬虫的爬行。利用TD来计算已爬行网页与给定主题的相关度,用来离线评价主题爬虫的性能。(2)提出了一种面向主题爬行的在线网页分块(OPS4FC,OnlinePageSegmentationforFocusedCrawling)方法。指出一个网页中影响主题爬行算法性能的块主要有两种:文本块和链接块。链接块可以进一步被细分为相关链接块,导航链接块和噪音链接块。OPS4FC的主要目标是识别出网页中的主题文本和相关链接块。首先,将一个已爬行的网页解析成DOM(DocumentObjectModel)树。其次,提出一种基于多特征的概率统计方法

7、来识别出该网页中的所有文本块和链接块。然后,根据文本块之间的语义相关性关系来识别出整个网页的主题文本。最后,根据链接块中所有链接的锚文本集合与主题文本的语义相关性关系识别出该网页所有的相关链接块。实验从W曲信息检索和主题爬行两个角度证明了OPS4FC方法具有很好的通用性。适用于对海量的,不同版面格式的网页的处理,能够有效的提取网页的主题文本内容和相关链接块,有效的去除网页中的噪音文本和噪音链接,从而能显著的提高Wreb检索和主题爬虫的性能。(3)提出一种多粒度的TCURLs优先级计算(PUMG,PrioritizingURLsinII山东大学博士学位

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。