网络信息抽取技术研究和比较

网络信息抽取技术研究和比较

ID:5975204

大小:29.50 KB

页数:7页

时间:2017-12-30

网络信息抽取技术研究和比较_第1页
网络信息抽取技术研究和比较_第2页
网络信息抽取技术研究和比较_第3页
网络信息抽取技术研究和比较_第4页
网络信息抽取技术研究和比较_第5页
资源描述:

《网络信息抽取技术研究和比较》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、网络信息抽取技术研究和比较  摘要:随着互联网爆炸式的发展和普及,网络信息已经成为了一种宝贵的信息数据资源。海量的网络数据使得数据分析与挖掘系统进入了一个新时代,越来越多的网络应用系统需要对来自不同数据源的结构化数据进行抽取、挖掘和整合。然而,由于网页文档的半结构化性质,网页上呈现的数据往往不能被机器自动地抽取和理解,因此,网络信息抽取的研究目标在于提取网页的结构化数据。互联网数据的海量规模与高度异构,为网络信息抽取带来了巨大的挑战。分析和总结了近年来网络信息抽取相关的研究与工作,剖析了各个工作的优势和局限,并进一步作了综合的分类与比较。关键词:网络信息抽取;包装器;模板中图分类

2、号:TP391[KG*2]文献标识码:A[KG*2][HT5”H]文章编号:2095-2163(2013)05-0024-050引言互联网已经成为一种公用信息的重要载体。在过去的二十年间,随着互联网的爆炸式的发展和大众型普及,涌现了众多应用网站,如新闻、博客、微博、社交网络、点评网站、在线论坛等。数量庞大的新闻媒体、商家机构和普通用户写手正不断、不停地在网络上发布信息,构成了一个海量的、宝贵的知识信息资源。7尽管互联网已成为庞大的数据金矿,但HTML网页——这一网络信息主要呈现方式——的设计初衷是供用户阅读,而非由机器读取,人们对网络数据信息的获取都仅限于网页浏览或是搜索引擎检索

3、[1]。这种表层的网页文本获取方式仅适于简单的文档检索任务,无法胜任更复杂、更精确的网络数据分析与挖掘任务。例如构建社区论坛的专家搜索系统,需要抽取帖子的发帖人、发帖时间、帖子内容等元数据信息。图1为网络论坛页面的示意图,共包含两个论坛帖子(虚线框所示,称为数据记录),每个帖子又可分为若干数据单元,其含义由相应的语义标签进行表明和指示(如时间、作者、内容等)。数据记录、数据单元及单元的语义标签,即构成了网页呈现的结构化数据,如图2所示。基于网络数据的大多数搜索和挖掘应用,都依赖于由输入网面转换而来的结构化的数据。由互联网网页中抽取结构化数据的过程称为网络信息抽取(WebInfor

4、mationExtraction)[1,2]。网络信息抽取任务不同于传统的信息抽取(IE)任务。传统信息抽取的目的在于从自由文本中抽取数据,使用自然语言处理(NaturalLanguage7Processing)的技术,如词性标注、语法分析等。而网络信息抽取则从网页文档中抽取数据。网页文档是一种半结构化文档,通常是由服务器端的后台程序或脚本自动生成,含有特定的HTML标签作为分隔标志,但整体缺乏严格且统一的语法和语义信息,包含了表现上的一定自由度。不同于高度结构化的文档(如XML),半结构化的文档并不能由机器直接读取。而互联网数据的海量规模与高度异构特征,也为网络信息抽取带来了巨

5、大的挑战。因此,开展网络信息抽取的研究工作具有相当的必要性和实用性。1主要工作介绍和分析按照模型方法的自动化程度,可以将网络信息抽取工作分为人工化、半自动化和全自动化三类。本节将从这三个方面,根据模型的提出时间,依次介绍相关工作,并分析各自的优势和局限1.1人工化的网络信息抽取方法早期的网络信息抽取工作,依靠人工编写的过程化程序来完成,如TSIMMIS[3],Minerva[4]等。编写的程序依赖于特定的网页结构,无法移植于其它结构的网页,且需要一定的计算机程序专业知识,限制了方法的应用和推广。因此,这种方法并不适于大规模的网络信息抽取工作,已逐渐丧失其使用价值。[HTH]1.2

6、半自动化的网络信息抽取方法[HTSS]7半自动化的方法,需要一定量的标注数据,因此也需要一定的人力成本。然而与人工化的方法不同,半自动化方法的标注任务简单直观,标注员经过简单训练即能胜任,并不需要计算机程序设计的专业知识,所以半结构化的方法能收集得到较大规模的标注数据,处理更大规模的抽取任务。一类典型的半自动化方法,是利用标注数据,通过归纳推导,构建得到包装器(Wrapper)。包装器是信息集成系统中的一个模块,能抽取网页数据并将其转换为结构化数据(图2)。具体可分为两种模式:基于抽取模式规则[5,6]和基于模板树匹配[7,8]。这两种模式均刻画了网页的模板结构,但却只适用于相同

7、结构的网页,因此被称作(网站)模板相关的工作。当处理新结构的网站时,仍然需要再次标注。另外,模板的检测和维护也是重要的研究问题[9]。只是数据标注和模板维护都需要巨大的成本,因此,这种方法不适用于大规模的网络信息抽取工作。为了克服模板化方法对网页结构的高依赖性,近年来半自动化的研究工作相继提出了(网站)模板无关的方法[10,11]。利用机器学习模型理论,挖掘领域内通用的、与网页结构无关的特征,从标注数据中训练得出统计模型。训练得到的模型不依赖于特定网站或特定的网页HTML结构,对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。