网络信息抽取技术研究

网络信息抽取技术研究

ID:39397151

大小:735.50 KB

页数:9页

时间:2019-07-02

网络信息抽取技术研究_第1页
网络信息抽取技术研究_第2页
网络信息抽取技术研究_第3页
网络信息抽取技术研究_第4页
网络信息抽取技术研究_第5页
资源描述:

《网络信息抽取技术研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、网络信息抽取技术研究摘要:网络信息抽取是网络信息挖掘和信息检索的一个非常重要的前处理步骤,在实际的工程项目中也存在着明确的需求。本文对网络信息抽取技术做了简介,介绍了主要的信息抽取系统的分类、比较,重点介绍了抽取系统Stalker和MDR;最后,本文介绍了我们在这个领域的工作成果,并对未来工作做了展望。关键词:网络信息抽取;包装器;抽取器1网络信息抽取技术简介随着互联网的发展,网络上的数据流量正在呈指数增长。如何从海量数据中获得需要的信息,已经成为人们日益关注的重要问题。大多数人通过浏览或关键词检索等方式获取信息,但这些方式都有一定的缺陷。顺着链接浏览网页容易让用户感到枯燥,并且容

2、易迷失在茫茫链接中;关键词检索有时候会比浏览的方法有效,但经常会让用户迷惑在众多的检索结果中。与之相较,数据库中的数据往往呈结构化存储,便于操作,所以一些研究者把视线重新转向数据库领域。然而网络上的数据往往是半结构化的,不能用传统的数据库技术进行处理。为了解决这个问题,出现了网络信息抽取技术(WebInformationExtraction),即从半结构化的网页中抽取出数据,结构化地存储在数据库中。因为网络信息抽取技术为网络信息的后期处理生成了最基础的结构化数据,因此对于很多Web挖掘、检索工具等应用是非常关键的[1~2]。网络信息抽取的任务和传统信息抽取的任务有很大的不同。传统信

3、息抽取的任务是从完全无结构的、使用自然语言的纯文本中抽取数据。网络信息抽取处理的是在线文档,这些文档都是半结构化的,且通常由服务器端的应用程序自动生成。通常传统信息抽取使用自然语言处理技术,而网络信息抽取使用机器学习和模式挖掘技术。执行信息抽取的程序被称为抽取器(extractor)或包装器(wrapper)。包装器的最初定义来自于信息集成系统的一个部件,该部件提供一个统一的查询界面,可以通过该界面从多个异构信息源中获得数据。在一个信息集成系统中,一个包装器通常是一段程序,用该程序将一个信息源(例如一个数据库服务器或一个Web服务器)进行包装,这样,信息集成系统不需要改变其核心查询

4、应答机制,就能够访问该信息源。当信息源是Web服务器时,包装器必须通过超文本传输协议(HyperTextTransferProtocol,HTTP)查询Web服务器,收集查询结果页面;然后对HTML(HyperTextMarkupLanguage,超文本标记语言)文档执行信息抽取,获取其中的内容;最后把抽取结果和其他数据源的抽取结果集成起来。在这三个过程中,信息抽取往往得到更多的关注,并且有一些人直接使用包装器来描述抽取程序。一个包装器通常执行一个模式匹配过程(如某种有限自动机),匹配过程的依据是一组抽取规则。2网络信息抽取系统的分类近年来,研究者提出了很多用于网络信息抽取系统的方

5、法,这些方法包括各种具有不同自动化程度的机器学习和模式挖掘技术。一些研究者对主要的信息抽取工具作了分类。23许钧南(CN.Hsu)和邓敏宗(音译,MT.Dung)[3]将包装器分为四类:(1)使用通用编程语言手工生成的包装器;(2)使用专用编程语言或工具生成的包装器;(3)基于启发式信息的包装器;(4)通过推导生成的包装器。张嘉惠(音译,CH.Chang)[4]以这种分类作为基础,进一步把信息抽取工具根据其自动化程度分为四类:(1)需要编程者的系统;(2)需要标注样例的系统;(3)不需要标注样例的系统;(4)半监督系统。勒恩德(A.H.F.Laender)基于生成包装器的主要技术把

6、信息抽取工具分成六类[2]:(1)用于开发包装器的专用语言、(2)以HTML作为中间件的工具、(3)基于自然语言处理的工具、(4)包装器的推导工具、(5)基于建模的工具、(6)基于本体的工具。萨拉瓦奇(S.Sarawagi)根据信息抽取任务的种类将HTML包装器分为三类[5]:(1)记录级包装器,利用规律识别记录的边界,从页面的同构记录中抽取记录列表;(2)页面级包装器,从一个网页中抽取出所有数据,可能包括多种结构的记录;(3)站点级包装器,为一个网站的所有页面架构一个数据库。早期网络信息抽取系统的设计是为了便于程序员手写抽取规则。后来的抽取系统引入了机器学习以提高规则生成的自动化

7、程度。这样,用户和系统的交互从手写抽取规则演变为对抽取目标数据的标注。最近几年,越来越多的努力朝向开发减少标注、甚至无需标注的抽取系统。根据这种趋势,从用户和抽取系统的交互角度考虑,CH.张把网络信息抽取系统分成四个类别[1]:(1)手工构造的抽取系统;(2)基于监督的抽取系统;(3)基于半监督的抽取系统;(4)无监督的抽取系统。以下具体介绍各类别的特点。1.1手工构造的抽取系统在手工构造的抽取系统中,用户通过编程,使用通用编程语言(如Perl)或特别设计的语言为每一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。