基于包装器的Web信息抽取算法实现【文献综述】

基于包装器的Web信息抽取算法实现【文献综述】

ID:472260

大小:25.00 KB

页数:4页

时间:2017-08-07

基于包装器的Web信息抽取算法实现【文献综述】_第1页
基于包装器的Web信息抽取算法实现【文献综述】_第2页
基于包装器的Web信息抽取算法实现【文献综述】_第3页
基于包装器的Web信息抽取算法实现【文献综述】_第4页
资源描述:

《基于包装器的Web信息抽取算法实现【文献综述】》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、毕业设计文献综述计算机信息技术基于包装器的Web信息抽取算法实现摘要:对基于包装器的Web信息抽取技术进行了描述,阐述了Web信息抽取算法的意义,并介绍了Web抽取算法的实现原理和研究现状,最后提出了自己对Web信息抽取算法袖的研究方法。关键词:信息抽取;包装器;抽取规则:一、研究基于包装器的Web信息抽取算法的意义当今社会随着互联网的迅速发展,互联网上流通的信息也在爆炸性地增长,并正在成为我们工作和生活中不可或缺的一员。然而,由于WWW是一个虚拟的开放环境,任何人和任何团体都可以在其上发表文章或言论。为帮助互联网用户有效地发布与接受信息,众多的互联网搜索引擎不断出现

2、,向广大用户提供基本的信息检索服务,怎样快速有效经济地检索到某个主题的所有相关信息,就成了一个十分热门的课题。Web信息抽取技术就是有效解决如何准确的从Web页面中抽取所需要内容的一项技术[1]。二、Web信息抽取算法的研究现状1.Web信息抽取算法的基本原理经过几十年的发展,主流的信息抽取技术一般可以分为基于自然语言理解,基于机器学习,基于Ontology和基于网页结构分析等方法[2]。(1)基于自然语言理解的方法自然语言的理解在传统的信息抽取问题中已经得到了广泛的研究,采用过滤,词性和词汇主义标识来建立短语和语句元素间的关联,通过给定的例子学习抽取规则。这些规则通

3、过语法上的约束来定位元素。(2)基于包装器的方法包装器归纳方式的信息抽取根据事先由用户标记的样本实例,应用机器学习归纳算法,生成基于分隔符的抽取规则。其中分隔符实质是对感兴趣语义项上下文的描述,即根据语义项的左右边界来定位语义项。包装器归纳方式和基于自然语言理解方式的不同之处仅仅在于它使用语义项的上下文来定位信息并没有用到语言的语法约束,而是使用可以明确描绘所要数据块结构的特征格式[3]。(3)基于Ontology的方法前面所介绍的方法都依赖利用一个文档中数据的表示特征结构,来后成抽取规则或模式。然而,抽取也可以直接依赖数据本身的描述信息来完成,而对网页结构的依赖较少

4、。而基于Ontology方法事先需由领域知识专家采用人工方式编写某一应用领域的Ontology,包括对象的模式,常值和关键字等信息,其中常值和关键字提供了语义项的描述信息。通过解析这个Ontology,系统能识别和抽取输入文档或页面的表示数据,并自动生成一个数据库[4~5]。(4)基于网页结构分析的方法这种技术依赖于HTML文档的内部结构特征一完成数据抽取。在开始抽取之前通过解析器将WEB文档解析成一棵语法树,半自动或自动的生成抽取规则,并应用到语法树上完成信息抽取操作[6~7]。2.国内研究现状目前国内外研究较多的信息抽取技术基本上都是从网页上抽取具有固定格式或者信

5、息组织分布相同的信息,如会议论文信息,商品信息,图书信息。这些研究的目的不是为了提取网页中的正文内容,而是为了把网页中的无结构化数据或半结构化,不规整的数据转换成结构化规整的数据。通常人们使用抽取页面正文部分信息的技术,如果网页正文信息抽取这种技术集成到文摘系统中,就可以方便的摘取网页的摘要;如果集成到文本分类系统中,就可以自动对网页分类聚类,这样就扩大了原有技术的适用范围。所以研究网页内容抽取技术对于自然语言技术的适用范围扩展到网页处理有着很大的意义。由于起步较晚以及中文信息处理的特殊性,中文信息抽取的水平与国外显得比较落后,主要的研究工作集中在中文命名实体识别上。

6、20世纪90年代初期开始,国内外一些学者对中文通用命名实体识别进行了一些研究。如:清华大学的孙茂松是国内最早做中文人名识别的,主要采用统计的方法计算姓氏和人名用字概率。山西大学的刘开瑛做过人名,地名等实体的识别,他采用还是有统计为主的方法。复旦大学的吴立德对中文人名,组织机构名识别进行过研究采用了基于统计的方法,或者是基于规则的方法,或者是统计和规则相结合的方法,均取得了不错的效果[8]。但是国内在信息抽取模板自动获取方面的研究国内还是很少,但同时这又是信息抽取研究方面急待解决的一个问题[9]。三、Web信息抽取算法的研究方法;1网页的解析首先要对网页进行预处理,因为

7、网页中含有大量垃圾代码和不必要的广告信息及冗余的脚本代码。然后对经过预处理的网页提取其中的正文信息。经过这样处理后,原网页就变为了可以被包装器所识别的格式。这部分工能预期使用HTMLparser来实现。2抽取规则的产生包装器就是一个根据用户提供的URL地址,返回给用户需要的信息的系统。包装器的抽取规则主要根据页面的结构决定。如下例:一个表结构的有关产品信息的HTML文档如下:ConpanyProductInformationCompanyProductInformation

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。