郭志红(上海交通大学情报研究所,上海200030)

郭志红(上海交通大学情报研究所,上海200030)

ID:20619876

大小:115.29 KB

页数:8页

时间:2018-10-14

郭志红(上海交通大学情报研究所,上海200030)_第1页
郭志红(上海交通大学情报研究所,上海200030)_第2页
郭志红(上海交通大学情报研究所,上海200030)_第3页
郭志红(上海交通大学情报研究所,上海200030)_第4页
郭志红(上海交通大学情报研究所,上海200030)_第5页
资源描述:

《郭志红(上海交通大学情报研究所,上海200030)》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于WEB资源的信息抽取技术郭志红(上海交通大学情报研究所,上海200030)摘要web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。如何将这些信总抽取出來,转化成结构化信息,供其它信息集成系统所利用,成为该顶域的研究热点。本文介绍了-•个简单的web信息抽取模型,对基于该模型的wrapper归纳技术进打了探讨,并描述了一个wrapperQ动生成系统的原型。关键词信息抽取wrapper归纳技术自动生成原型系统TheTechnologyofInformationExtractionforWEBResourceGuoZhihong(Informatio

2、nResearchInstitute,ShanghaiJiaotonguniversity,Shanghai200030)AbstractThereisplentyofusefulinformationinwebresource.Itcan’tbeusedbythetraditionaldatabasequerysystembecauseitisnotwell-structured.Recentlyconsiderableattentionhasbeenreceivedonhowtoextractitfromwebresourceandtransferittostructuredi

3、nformationthatcanbeusedbyotherinformationintegrationsystems.Thispaperpresentsasimplewebinformationextractionmodel,discussesthetechnologyofwrapperinductionbasedonthemodelanddescribesautomaticgenerationprototypesystemofwrapper.Keywordsinformationextractionwrapperinductionautomaticgenerationproto

4、typesystem引言Internet是~个巨大的信息资源库,它上面有着各种各样的在线信息:天气预报,股票价格,商品0录,政府法规和税收政策,个人爱好,研究报告等等。所宥这些web资源信息都宥两个共同的特征:(1)文本内容以html形式发介。(2)通过浏览方式或基于格式的查询方式来实现对其内容的存取。由于html标记更关注字体大小,颜色,位置等,而文档的结构却隐含在这些标记中,故html页屮的大量信息都是半结构化的。而基于这种半结构化信息的查询,即web查询,与传统的基于结构化信息的数据库查询是不同的,其S询结果往往是互不相关的html页面,而且相同的査询往往得到的是不同的结采。

5、故耍直接査询页而上的精确信息显得十分困难。为了解决这个问题,需耍针对各种类型的web资源集构建和应的wrapper,利用该wrapper去抽取htmlUf巾的半结构化信、&,并转化成结构化数据,供其它信息集成系统利用。由于网上新资源的频繁加入,现存的资源格式又经常变化,手工构建wrapper将极其乏味而II容易出错。凶此,开发出0动构建wrapper的技术及其系统则是该顶域的发展趋势。web信息抽取模型一个简单的web信息抽取模型可概括为:向特定资源库发出一个查询请求,得到相应的响应页,然后wrapper从响应页中抽取出所需要的信总,将其映射成相应的标记信息,如图1所示。query

6、resourceuTapjvrIVcVlabel图一、简单的web信息抽取模型图中2是以查询语言2.构造的查询表达式,表达了用户所需要的信息。它可能是SQL或KQML语句,也有可能是CGI脚本参数所组成的语句。Z5为查询响应页,可以把它看成是ascii字符集r中的字符申,含宥一个或多个所需信息的元组(例如,假设我们耍杣取的信息为各个W家所对应的电话号码区域号,则具体的〈W家,区域号〉即为一个元组。它有两个属性:国家,区域号。形式地讲,一个元组可表达为一个具有k个字符串属性的向量<AbA2,Ak>)S为特定的信息资源库,可以看成是一个将查询表达式转化成响应页/^的函数。A为标记信息

7、集,一个标记信息集Z就是一个响应页中所耍抽取的所宥信息元组集合。其形式化表示如下所示:即该响应页中含有IZ

8、〉0个元组,每个元组具有K〉0个属性。整数1是属性索引号,而整数

9、Z

10、则是该响应页屮的元组索引号,每个<K,k,e,,k>表示为一个雄一的属性集。bm,k是第m个元组的第k个属性在该响应贞屮的起始位置,e,.k则是它的结束位置。因此,第ni个元组的第k个属性的值为该响应页屮处于bt.k和eQ.k两个位置点之间的字符内容。W是一个Wrapper,是整个信思抽取模型

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。