欢迎来到天天文库
浏览记录
ID:38711518
大小:166.00 KB
页数:7页
时间:2019-06-18
《基于wrapper的信息抽取技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于wrapper的信息抽取技术摘要web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来,转化成结构化信息,供其它信息集成系统所利用,成为该顶域的研究热点。本文介绍了一个简单的web信息抽取模型,对基于该模型的wrapper归纳技术进行了探讨,并描述了一个wrapper自动生成系统的原型。关键词信息抽取wrapper归纳技术自动生成原型系统WrapperBasedTechnologyofInformationExtractionAbstract
2、Thereisplentyofusefulinformationinwebresource.Itcan'tbeusedbythetraditionaldatabasequerysystembecauseitisnotwell-structured.Recentlyconsiderableattentionhasbeenreceivedonhowtoextractitfromwebresourceandtransferittostructuredinformationthatcanbeusedbyot
3、herinformationintegrationsystems.Thispaperpresentsasimplewebinformationextractionmodel,discussesthetechnologyofwrapperinductionbasedonthemodelanddescribesautomaticgenerationprototypesystemofwrapper.Keywordsinformationextractionwrapperinductionautomatic
4、generationprototypesystem 1:引言目前,随着Internet网上信息的剧增,出现了所谓的“信息过载”和“信息迷向”问题,即信息浩如瀚海,却不知如何寻找到自己感兴趣的信息,即使找到了一些有用的信息,也经常混有很多的“噪音”。所有这些web资源信息都有两个共同的特征:(1)文本内容以html形式发布。(2)通过浏览方式或基于格式的查询方式来实现对其内容的存取。互联网的迅速发展,网络用户很难想找到所需的资料,促使了搜索网站的诞生。但是搜索引擎为了避免“spidertrap”,不会
5、深层次地搜索每个网站,如果一个网站内的网页是自动生成的,结构类似的,并且每个网页内的记录是集中出现的,各个记录的展现格式是类似的,网站内的网页将不能被搜索引擎索引,搜索引擎越来越表现出很多的缺陷。为了能够搜索到这类动态资源,人们提出了包装器技术,包装器套用了程序设计领域的设计模式中的工厂模式的概念,由一系列的抽取规则以及应用这些规则的程序代码组成。由于html标记更关注字体大小,颜色,位置等,而文档的结构却隐含在这些标记中,故html页中的大量信息都是半结构化的。而基于这种半结构化信息的查询,即we
6、b查询,与传统的基于结构化信息的数据库查询是不同的,其查询结果往往是互不相关的html页面,而且相同的查询往往得到的是不同的结果。故要直接查询页面上的精确信息显得十分困难。为了解决这个问题,需要针对各种类型的web资源集构建相应的wrapper,利用该wrapper去抽取html页中的半结构化信息,并转化成结构化数据,供其它信息集成系统利用。由于网上新资源的频繁加入,现存的资源格式又经常变化,手工构建wrapper将极其乏味而且容易出错。因此,开发出自动构建wrapper的技术及其系统则是该顶域的发
7、展趋势。2:web信息抽取模型一个简单的web信息抽取模型可概括为:向特定资源库发出一个查询请求,得到相应的响应页,然后wrapper从响应页中抽取出所需要的信息,将其映射成相应的标记信息,如图1所示。图1简单的web信息抽取模型图2标识信息集L图中Q是以查询语言Q.构造的查询表达式,表达了用户所需要的信息。它可能是SQL或KQML语句,也有可能是CGI脚本参数所组成的语句。P为查询响应页,可以把它看成是ASCII字符集∑中的字符串,含有一个或多个所需信息的元组(例如,假设我们要抽取的信息为各个国家
8、所对应的电话号码区域号,则具体的〈国家,区域号〉即为一个元组。它有两个属性:国家,区域号。形式地讲,一个元组可表达为一个具有k个字符串属性的向量)S为特定的信息资源库,可以看成是一个将查询表达式转化成响应页P的函数。L为标记信息集,一个标记信息集L就是一个响应页中所要抽取的所有信息元组集合。其形式化表示如下所示:即该响应页中含有│L│>0个元组,每个元组具有K>0个属性。整数1≤k≤K是属性索引号,而整数1≤m≤∣L∣则是该响应页中的元组索引号
此文档下载收益归作者所有