基于web资源的信息抽取技术 - 上海交通大学图书馆

ID：26591523

大小：86.50 KB

页数：6页

时间：2018-11-27

资源描述：

《基于web资源的信息抽取技术 - 上海交通大学图书馆》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、基于WEB资源的信息抽取技术郭志红（上海交通大学情报研究所，上海200030）　摘要web资源含有大量的有用信息，但由于它们欠结构化，不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来，转化成结构化信息，供其它信息集成系统所利用，成为该顶域的研究热点。本文介绍了一个简单的web信息抽取模型，对基于该模型的wrapper归纳技术进行了探讨，并描述了一个wrapper自动生成系统的原型。关键词信息抽取wrapper归纳技术自动生成原型系统TheTechnologyofInformationExtractionforW

2、EBResourceGuoZhihong（InformationResearchInstitute,ShanghaiJiaotonguniversity,Shanghai200030）　AbstractThereisplentyofusefulinformationinwebresource.Itcan'tbeusedbythetraditionaldatabasequerysystembecauseitisnotwell-structured.Recentlyconsiderableattentionhasbeenre

3、ceivedonhowtoextractitfromwebresourceandtransferittostructuredinformationthatcanbeusedbyotherinformationintegrationsystems.Thispaperpresentsasimplewebinformationextractionmodel,discussesthetechnologyofwrapperinductionbasedonthemodelanddescribesautomaticgeneration

4、prototypesystemofwrapper.Keywordsinformationextractionwrapperinductionautomaticgenerationprototypesystem　引言 Internet是一个巨大的信息资源库，它上面有着各种各样的在线信息：天气预报，股票价格，商品目录，政府法规和税收政策，个人爱好，研究报告等等。所有这些web资源信息都有两个共同的特征：（１）文本内容以html形式发布。（２）通过浏览方式或基于格式的查询方式来实现对其内容的存取。由于html标记更关注字体

5、大小，颜色，位置等，而文档的结构却隐含在这些标记中，故html页中的大量信息都是半结构化的。而基于这种半结构化信息的查询，即web查询，与传统的基于结构化信息的数据库查询是不同的，其查询结果往往是互不相关的html页面，而且相同的查询往往得到的是不同的结果。故要直接查询页面上的精确信息显得十分困难。为了解决这个问题，需要针对各种类型的web资源集构建相应的wrapper，利用该wrapper去抽取html页中的半结构化信息，并转化成结构化数据，供其它信息集成系统利用。由于网上新资源的频繁加入，现存的资源格式又经常变化，手

6、工构建wrapper将极其乏味而且容易出错。因此，开发出自动构建wrapper的技术及其系统则是该顶域的发展趋势。web信息抽取模型　　一个简单的web信息抽取模型可概括为：向特定资源库发出一个查询请求，得到相应的响应页，然后wrapper从响应页中抽取出所需要的信息，将其映射成相应的标记信息，如图１所示。　图中Q是以查询语言Q.构造的查询表达式，表达了用户所需要的信息。它可能是SQL或KQML语句，也有可能是CGI脚本参数所组成的语句。P为查询响应页，可以把它看成是ASCII字符集∑中的字符串，含有一个或多个所需信息的

7、元组（例如，假设我们要抽取的信息为各个国家所对应的电话号码区域号，则具体的〈国家，区域号〉即为一个元组。它有两个属性：国家，区域号。形式地讲，一个元组可表达为一个具有k个字符串属性的向量）S为特定的信息资源库，可以看成是一个将查询表达式转化成响应页P的函数。L为标记信息集，一个标记信息集L就是一个响应页中所要抽取的所有信息元组集合。其形式化表示如下所示：即该响应页中含有│L│>0个元组，每个元组具有K>0个属性。整数１≤k≤K是属性索引号，而整数１≤m≤∣L∣则是该响应页中的元组索引号，每个

8、,k,em,k>表示为一个单一的属性集。bm,k是第m个元组的第k个属性在该响应页中的起始位置，em,k则是它的结束位置。因此，第m个元组的第k个属性的值为该响应页中处于bm,k和em,k两个位置点之间的字符内容。 W是一个Wrapper，是整个信息抽取模型的核心，可以将W看成是一个将响应页P映射成标记信息集L的

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于web资源的信息抽取技术 - 上海交通大学图书馆

基于web资源的信息抽取技术 - 上海交通大学图书馆

相关文章

相关标签