欢迎来到天天文库
浏览记录
ID:18807939
大小:154.46 KB
页数:17页
时间:2018-09-25
《基于web的信息提取技术研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于Web的信息提取技术研究17/17目录摘要4第1章绪论51.1研究背景51.2研究意义51.3本文研究内容61.4论文结构安排6第2章Web信息抽取概述72.1Web信息抽取的发展历史72.2Web信息抽取的定义和Web信息的特点72.3Web信息抽取技术分析82.3.1基于正则表达式的信息抽取82.3.2基于自然语言处理的信息抽取82.3.3基于本体的信息抽取92.3.4基于包装器归纳的信息抽取92.3.5基于HTML结构的信息抽取92.3.6基于Web查询的信息抽取92.4本章小结9第3章基于XML技术的Web信息抽取103.1
2、概述103.1.1问题的提出103.1.2网页的格式及XML技术的优势103.2Web信息抽取流程113.3相关技术介绍113.3.1DOM模型113.3.2Xpath11第四章基于XML技术的Web信息抽取的实现124.1Web文档的预处理124.1.1将HTML文档解析为DOM模型124.1.2将HTML文档转换为形式上的XML文档1217/174.2抽取规则134.2.1抽取规则的设计134.2.2抽取规则的生成144.3信息抽取144.4附加语义144.5抽取规则的优化154.5.1利用标记属性进行优化154.5.2利用标记之间
3、的数量关系进行优化15第五章结论16本文总结16本文总结16参考文献1717/17摘要随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。作为海量的信息来源,Web可以看成是一个巨大的数据库,包含着各种各样有价值的信息。基于Web的信息抽取技术就是研究如何从这些Web源中抽取出用户感兴趣的信息,并把这些抽取出的信息表示成更具有语义,更为结构化的形式,以便加以利用。该技术起源于信息抽取技术,但由于Web信息的自身特点,该技术已经和传统的基于纯文本的信息抽取技术有了很大的不同。目前,大量Web信息被保存在网站的后台数据库中,这些信息在
4、网页上的显示有一些共同的特征,即通常把数据库中的数据插入到网页的一个模板中,其表现形式就是网页的主体部分有多个局部信息块组成,局部信息块有多个数据项构成。这类网页被称为数据密集型(data-rich)网页,由于该类网页富含大量有价值的信息,因此,研究如何对这类网页进行Web信息抽取有重大的意义和实用价值。对于上述数据密集型网页,本文采用基于XML的相关技术来解决Web信息的抽取问题。其解决方案是:首先获得目标网页,并将该HTML文档以文档对象模型DOM为中介,转换为形式上的XML文档,然后根据这类网页的特征,把该网页中信息的布局视为基于
5、行和列的二维表形式,用户根据自身需求,通过与系统交互,系统半自动地生成基于行和相关列的XPath位置路径表达式作为抽取规则,根据抽取规则定位到待抽取的信息,从而实现信息的准确抽取,抽取的结果用XML来表示。关键词:Web信息抽取;DOM;XML17/17第1章绪论1.1研究背景自九十年代初互联网(Internet)开始迅速发展至今,互联网已成为经济、社会、文化、教育以及娱乐等各个方面的重要组成部分,并正在成为我们工作和生活中不可或缺的一员。就我国而言,据CNNIC(中国互联网络信息中心)的统计,截止2010年7月,中国网民数已达4.2亿
6、,网民平均每周上网时长达19.8小时,并且这两个数据还在不断地增长。正当人们越来越依赖互联网来获取信息的时候,信息过载的问题出现了。目前,网络信息的相当一部分是通过万维网(WWW)的Web页面提供的,但据CNNIC的最新统计显示:仅中国,网站数量已有279万个。面对如此庞大的数据,如何从浩如烟海的Web信息中快速、有效地查找用户需要的信息一直是互联网络应用的一个难题。近几年来,出现了多种基于Web的信息检索工具,如比较出名的Google、Yahoo、百度等搜索引擎工具,这些工具的出现极大地方便了人们对信息的获取,能够解决部分信息过载的问
7、题,但由于它们都是基于字符串匹配和词义相似原理进行信息查询的,因此使用这些工具得到的查询结果动辄成百上千条,而且有很多返回的查询结果中包含了重复的内容,这就使用户得到了网页,并不等于得到了想要的信息资源。为了更加有效的组织和获取网上数据资料,高效地发现和利用Internet上的资源,研究人员开创了Web信息抽取这个研究领域。Web信息抽取技术的任务就是将网页中用户感兴趣的信息准确地抽取出来,以更具有语义、更结构化的形式保存下来,以供用户查询或其他应用程序利用。它与网络信息检索的区别是:Ø目的不同:网络信息检索是从海量的万维网上搜索到所需
8、的Web文档,而Web信息抽取不仅要首先获取Web文档,而且要更进一步地从这部分文档中抽取出有价值的,为后续工作所用的信息。Ø面向的用户群不同:网络信息检索面向大众,与领域无关,而Web信息抽取是面向特定用
此文档下载收益归作者所有