欢迎来到天天文库
浏览记录
ID:26591523
大小:86.50 KB
页数:6页
时间:2018-11-27
《基于web资源的信息抽取技术 - 上海交通大学图书馆》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于WEB资源的信息抽取技术郭志红(上海交通大学情报研究所,上海200030) 摘要web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来,转化成结构化信息,供其它信息集成系统所利用,成为该顶域的研究热点。本文介绍了一个简单的web信息抽取模型,对基于该模型的wrapper归纳技术进行了探讨,并描述了一个wrapper自动生成系统的原型。关键词信息抽取wrapper归纳技术自动生成原型系统TheTechnologyofInformationExtractionforW
2、EBResourceGuoZhihong(InformationResearchInstitute,ShanghaiJiaotonguniversity,Shanghai200030) AbstractThereisplentyofusefulinformationinwebresource.Itcan'tbeusedbythetraditionaldatabasequerysystembecauseitisnotwell-structured.Recentlyconsiderableattentionhasbeenre
3、ceivedonhowtoextractitfromwebresourceandtransferittostructuredinformationthatcanbeusedbyotherinformationintegrationsystems.Thispaperpresentsasimplewebinformationextractionmodel,discussesthetechnologyofwrapperinductionbasedonthemodelanddescribesautomaticgeneration
4、prototypesystemofwrapper.Keywordsinformationextractionwrapperinductionautomaticgenerationprototypesystem 引言 Internet是一个巨大的信息资源库,它上面有着各种各样的在线信息:天气预报,股票价格,商品目录,政府法规和税收政策,个人爱好,研究报告等等。所有这些web资源信息都有两个共同的特征:(1)文本内容以html形式发布。(2)通过浏览方式或基于格式的查询方式来实现对其内容的存取。由于html标记更关注字体
5、大小,颜色,位置等,而文档的结构却隐含在这些标记中,故html页中的大量信息都是半结构化的。而基于这种半结构化信息的查询,即web查询,与传统的基于结构化信息的数据库查询是不同的,其查询结果往往是互不相关的html页面,而且相同的查询往往得到的是不同的结果。故要直接查询页面上的精确信息显得十分困难。为了解决这个问题,需要针对各种类型的web资源集构建相应的wrapper,利用该wrapper去抽取html页中的半结构化信息,并转化成结构化数据,供其它信息集成系统利用。由于网上新资源的频繁加入,现存的资源格式又经常变化,手
6、工构建wrapper将极其乏味而且容易出错。因此,开发出自动构建wrapper的技术及其系统则是该顶域的发展趋势。web信息抽取模型 一个简单的web信息抽取模型可概括为:向特定资源库发出一个查询请求,得到相应的响应页,然后wrapper从响应页中抽取出所需要的信息,将其映射成相应的标记信息,如图1所示。 图中Q是以查询语言Q.构造的查询表达式,表达了用户所需要的信息。它可能是SQL或KQML语句,也有可能是CGI脚本参数所组成的语句。P为查询响应页,可以把它看成是ASCII字符集∑中的字符串,含有一个或多个所需信息的
7、元组(例如,假设我们要抽取的信息为各个国家所对应的电话号码区域号,则具体的〈国家,区域号〉即为一个元组。它有两个属性:国家,区域号。形式地讲,一个元组可表达为一个具有k个字符串属性的向量)S为特定的信息资源库,可以看成是一个将查询表达式转化成响应页P的函数。L为标记信息集,一个标记信息集L就是一个响应页中所要抽取的所有信息元组集合。其形式化表示如下所示:即该响应页中含有│L│>0个元组,每个元组具有K>0个属性。整数1≤k≤K是属性索引号,而整数1≤m≤∣L∣则是该响应页中的元组索引号,每个8、,k,em,k>表示为一个单一的属性集。bm,k是第m个元组的第k个属性在该响应页中的起始位置,em,k则是它的结束位置。因此,第m个元组的第k个属性的值为该响应页中处于bm,k和em,k两个位置点之间的字符内容。 W是一个Wrapper,是整个信息抽取模型的核心,可以将W看成是一个将响应页P映射成标记信息集L的
8、,k,em,k>表示为一个单一的属性集。bm,k是第m个元组的第k个属性在该响应页中的起始位置,em,k则是它的结束位置。因此,第m个元组的第k个属性的值为该响应页中处于bm,k和em,k两个位置点之间的字符内容。 W是一个Wrapper,是整个信息抽取模型的核心,可以将W看成是一个将响应页P映射成标记信息集L的
此文档下载收益归作者所有