基于领域本体的网页信息采集与检索研究

基于领域本体的网页信息采集与检索研究

ID:33584829

大小:6.64 MB

页数:62页

时间:2019-02-27

基于领域本体的网页信息采集与检索研究_第1页
基于领域本体的网页信息采集与检索研究_第2页
基于领域本体的网页信息采集与检索研究_第3页
基于领域本体的网页信息采集与检索研究_第4页
基于领域本体的网页信息采集与检索研究_第5页
资源描述:

《基于领域本体的网页信息采集与检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大连理上大学硕十学位论文语义扩展来提高信息检索效果。本文将分别介绍面向主题采集技术和基于本体扩展查询的发展状况,以及基于这两个技术的专业搜索引擎得发展概况。1.2.1面向主题信息采集技术发展现状目前,Web信息采集技术的发展正如火如茶,在传统的web信息采集技术的基础上,又出现了许多轻型的各具特色的采集技术。我们根据国内外流行的看法,结合我们在这方面长期积累的实际经验,把web信息采集的发展方向分为以下几种:基于整个Web的信息采集(ScalableWebCrawling),增量式Web信息采集(IncrementalWebCrawling),基

2、于主题Web信息采集(FocusedWebCrawling),基于用户个性化的Web信息采集(CustomizedWebCrawling),基于Agent的信息采集(AgentBasedWebCrawling),迁移的信息采集(RelocatableWebCrawling),基于元搜索的信息采集(MetasearchWebCrawling)。现实中的很多系统往往是以上几个采集技术的结合。而本文主要研究的是基于主题的web信息采集,在这里,先看看国际上流行的此类信息采集系统。(1)Berkeley的FocusedProject[6】由印度裔科学家C

3、hakrabarti主导开发了一个典型的基于主题的Web信息采集器。它的主题集是用样本文件来描述的。为了达到采集时主题制导的目的,设计者设计了两个文本挖掘的部件来指导采集。一个是分类器(Classifier),用于评价采集文本是否与主题相关。另一个是精炼器(Distiller),用于识别能够在较少的链接内就连接到大量相关页面的超文本节点。采集系统首先保存一个经典的主题分类(例如Yahoo的主题分类),并且为每一个主题分类都保存若干个内容样本,用于详细的刻画这一类主题。用户在使用本采集器搜索与主题相关的页面时,必须在系统的主题分类树中先选择一个主题

4、,用于指导采集。由于要选择和剪枝,采集速度并不太快,在双333MHzPIICPU,256M内从SCSI硬盘下,每个采集器的采集速度为每小时6000页。(2)Stanford大学的HiddenWebExposerProject[7】Web上80%的内容是动态产生的,并且呈增长趋势,而这些内容却几乎没有被采集下来。美国Stanford大学的HiddenWebExposerProject就是要建立一个采集这些动态页面的采集器。因为很多隐式页面要通过填写表单等人工手段才能获取,所以采集器在采集之前需要人工辅助来事先填好领域信息,然后进行基于主题的采集。尽

5、管主题信息的填写工作较繁琐,但同一主题的信息结构较相似,只要用户填写一次基本上就可以实现自动采集了。(3)印度M.Yuvarani等人提出了一个提高的聚焦采集器框架LSCrawler【8】基于领域本体的网页信息采集与检索研究LSCrawler系统通过提取链接中或者前后的标题中的术语来计算和领域本体概念之间的相关度,从而来判断链接文档的语义相关性,根据链接的相关性实现面向主题的网络信息抓取。相对以上提到的主题概念聚焦采集系统,LSCrawler系统使用本体概念来识别网页的相关性,强化了主题的语义关系,采集的主题性更强。目前大多数主题采集主要基于文字

6、内容启发和分类器引导的主题采集,基于文字内容的启发策略主要是利用了Web网页文本内容、URL字符串、锚文字等文字内容信息。基于分类模型可以使用文本分类技术描述用户感兴趣的主题和识别网页的主题相关度。文本分类技术应用于主题信息搜索中有利于提高主题搜索的正确率和准确率,但计算量大,运行效率低。1.2.2基于本体的扩展查询随着语义网和本体的提出,基于本体的信息检索研究得到了很多研究人员和机构的重视,成果也比较显着,出现了不少著名的项目。如Ontobrokert9】面向WWW上的网页资源,帮助用户检索所需的网页。Textpressotl0】是基于本体的生

7、物学文献检索和抽取系统。Textpresso系统是由美国加州技术学院WormBase工作组开发的网络环境下的面向生物学领域的检索工具,主要处理和检索Celegans数据集中的文献摘要和全文。SHOE[111(SimpleHTMLOntologyExtensions)通过对HTML进行扩展在HTML页面的头部或者尾部加入一些基于ontology的元数据来对页面的内容进行标注。这种标注和页面的内容是分离的。SHOE采用horn逻辑作为它的规则语言,表达能力和基于框架逻辑的Ontobroker类似。从上面的项目可见国外的研究者对基于本体的信息检索做了大

8、量的工作,但是由于构建领域本体的复杂性,基于本体的信息检索还处于初级阶段,真正得到推广的应用还没有出现。国内也有许多学者对于将本体应用于

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。