浅谈web信息抽取

浅谈web信息抽取

ID:21748255

大小:35.00 KB

页数:11页

时间:2018-10-24

浅谈web信息抽取_第1页
浅谈web信息抽取_第2页
浅谈web信息抽取_第3页
浅谈web信息抽取_第4页
浅谈web信息抽取_第5页
资源描述:

《浅谈web信息抽取》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、精品文档浅谈web信息抽取摘要:文章阐述了web信息抽取的定义、抽取过程、Web信息抽取方法的分类,并指明了web信息抽取的应用领域和发展方向。论文关键词:web信息抽取,自然语言,包装器,web查询,抽取对象  一、什么是web信息抽取  Web信息抽取是指从Web页面所包含的无结构、半结构或者结构化的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式的Web页面信息抽取的过程[1]。  二、Web信息抽取技术涉及的内容  因特网提供了一个巨大的信息源。这种信息源往往是半结构化的,并且中间夹杂着结构化和自由文本。网上的信息还是动态的,包含超链接,都以不同的形式

2、出现。  lWeb2016全新精品资料-全新公文范文-全程指导写作–独家原创11/11精品文档信息抽取的内容一般可以分为这样几个方面:  命名实体的抽取、与模板有关的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。  信息抽取的方法主要可以分为以下两类:一类是基于层次结构的信息抽取归纳方法,另一类是基于概念模型的多记录信息抽取方法。  Web信息抽取工作主要包装器来完成[1]。包装器是一种软件过程,这个过程使用已经定义好的信息抽取规则,将网络中Web页面的信息数据抽取出来,转换为用特定的格式描述的信息。一个包装器一般针对某一种数据源中的一类页面。包装器运用规则执行程

3、序对实际要抽取的数据源进行抽取。  l抽取过程一般包括以下几个步骤[2]:  1.将Web网页进行预处理。预处理的目的是将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备。  2.用一组信息模式描述所需要抽取的信息。通常可以针对某一领域的信息特征预定义好一系列的信息模式,存放在模式库中供用户选用。  3.对文本进行合理的词法、句法及语义分析,通常包括识别特定的名词短语和动词短语。  4.使用模式匹配方法识别指定的信息模式的各个部分。  5.进行上下文分析和推理,确定信息的最终形式。  6.2016全新精品资料-全新公文范文-全

4、程指导写作–独家原创11/11精品文档将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。  三、Web信息抽取方法的分类  把所有网页都归入半结构化文本是不恰当的。若能通过识别分隔符或信息点顺序等固定的格式信息正确抽取出来,那么该网页是结构化的。半结构化的网页则可能包含缺失的属性,或一个属性有多个值,或一个属性有多个变体等例外的情况。若需要用语言学知识才能正确抽取属性,则该网页是非结构化的。  网页的结构化程度总是取决于用户想要抽取的属性是什么。通常机器产生的网页是非常结构化的,手工编写的则结构化程度差些,当然有很多例外。  按照Web信息抽取对象的结构化程度,大体

5、上可以分为三种类型:  结构化文本。  自由文本。  半结构化文本。  l根据Web信息抽取对象划分,可以分为三种类型[2]:  1.从自由格式的文本中抽取出所需要的信息内容。自由文本的抽取技术可分为三类:  a.基于自然语言处理的方式。  b.基于规则的方式。  c.基于统计学习的方式。  2.2016全新精品资料-全新公文范文-全程指导写作–独家原创11/11精品文档从半结构化的文本中,抽取出所需要的信息内容。  3.从结构化的文本中抽取出所需要的信息内容。  l根据自动化程度可以分为  人工方式的信息抽取、半自动方式的信息抽取和全自动方式的信息抽取三大类

6、。  l根据现有Web信息抽取系统和模型实现原理的不同,分为以下几类:  1.基于归纳学习的信息抽取[2]。通过对若干个待抽取实例网页进行结构特征学习,归纳出抽取规则,然后使用抽取规则自动分析待抽取信息在网页中的结构特征并实现信息抽取。采用这种原理的典型的系统有STALKER,SOHTMEALY,WIEN。  2.基于HMM的信息抽取[3][4]。是最近几年应用最广泛的抽取知识表达模型。它是一种随机的有限状态自动机,由于HMM有成熟的学习算法和坚实的统计基础,所以在信息抽取中是一种成功的模型。  3.基于特征模式匹配的信息抽取[2]。通过大量学习实例,归纳学习出待抽取信息的语

7、法结构模式,并根据这些模式从待抽取网页中抽取出相匹配的信息,适用于复杂结构信息的抽取。  4.2016全新精品资料-全新公文范文-全程指导写作–独家原创11/11精品文档基于网页结构特征分析的信息抽取[2]。将Web文档转换成反映HTML文件层次结构的解析树,通过自动或半自动的方式产生抽取规则。采用该类技术的典型系统有LIXTO[5]等。  5.基于Ontology的Web信息抽取[7][8]。本体的构建是这类抽取的基础与核心,如何构造出良好的面向应用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。