基于信息量的Web表格信息抽取方法.pdf

ID：52883937

大小：228.70 KB

页数：5页

时间：2020-03-31

资源描述：

《基于信息量的Web表格信息抽取方法.pdf》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、第３５卷第４期西南师范大学学报（自然科学版）２０１０年８月Ｖｏｌ．３５Ｎｏ．４ＪｏｕｒｎａｌｏｆＳｏｕｔｈｗｅｓｔＣｈｉｎａＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）Ａｕｇ．２０１０文章编号：１０００－５４７１（２０１０）０４－０１５９－０５基于信息量的Ｗｅｂ表格信息抽取方法＊曾广朴，陶维安长江师范学院数学与计算机学院，重庆涪陵４０８１００摘要：提出一种基于有效信息量的Ｗｅｂ表格信息抽取模型，该模型主要由表格定位和表格信息抽取二个模块组成，根据Ｗｅｂ表格的内容特征来识

2、别主题表格，通过检查格式、语法的特征将表格分割成值域与属性域．实验结果表明该模型能够很好地应用于Ｗｅｂ表格信息的抽取．关键词：Ｗｅｂ表格；有效信息率；文档对象模型；信息抽取中图分类号：ＴＰ３１１．１３文献标识码：Ａ随着Ｉｎｔｅｒｎｅｔ的高速发展，Ｗｅｂ已经成为一个巨大、分布和共享的信息空间．面对海量的数据资源，现今的搜索引擎技术在处理信息的粒度上还不能达到直接定位到所需数据所在准确位置的目的．因此，随着用户对Ｗｅｂ信息的需求越来越高，Ｗｅｂ信息抽取技术应运而生．表格作为一种简洁有效的数据信息表达方式，在

3、各领域的Ｗｅｂ页面中都广泛应用，比如：网上购物、股票报价、航班时刻表等．因此，从Ｗｅｂ［１］页面所包含的表格中提取信息成为Ｗｅｂ信息抽取领域中一个重要且有价值的研究课题．本文针对Ｗｅｂ表格信息抽取的一些关键技术和实现方法进行研究探讨，其目的是提出一种以Ｗｅｂ表格为信息抽取对象的、适用于各种网页结构、能够较好并完整地抽取出表格中的单元信息和结构信息的表格信息抽取引擎．１相关工作现状Ｗｅｂ表格信息抽取的提出始于上世纪九十年代末，近年来得到了一些学者和研究机构的关注，主要采［２］用的方法有手工编写代码的方法、

4、机器学习方法和启发式自动化方法．这些方法各有特点，手工编写代码方法表达能力强，但需要用户编写复杂的代码，且由于网页经常变化而维护困难；包装器归纳方式是目前国内外在信息抽取领域用得较多的一种方式，包装器归纳法是一种自动构造包装器的技术，主要思想是［３］用归纳式学习方法生成抽取规则，用户在一系列的网页中标记出需要抽取的数据，系统在这些例子的基础上归纳出规则，这些规则的精确度如何取决于例子的质量如何；本体论方法是一种很有前景的方法，但关键问题是如何有效地创建本体．目前，在该方法所需本体的创建大多需部分手工完成

5、；半自动的方法利用格式信息半自动地抽取Ｗｅｂ结构信息，该方法只能抽取部分ＨＴＭＬ表格；启发式自动化方法提出了一种抽取表格数据的自动方法，但没有给出具有嵌套的表头结构的表格的转换方法，并且它不能转换无标志［４］表头的ＨＴＭＬ表格．本文中采用的是基于表格结构分析的方法来构造抽取模型．主要通过分析表格结构，将ＨＴＭＬ标记定义的表格转化为一种逻辑表格结构，进而提取表格信息．２基于信息量的Ｗｅｂ表格信息抽取２．１设计思想一个Ｗｅｂ页面中通常包含一个或多个ＨＴＭＬ表格，一个表格又由一个或多个单元格组成．因此，定＊收

6、稿日期：２００９－１２－２９基金项目：重庆市教委科学技术研究项目（ＫＪ０９１３０９）．作者简介：曾广朴（１９６６－），男，重庆人，讲师，主要从事网络信息系统及数据挖掘方面的研究．１６０西南师范大学学报（自然科学版）投稿网址ｈｔｔｐ：／／ｘｂｇｊｘｔ．ｓｗｕ．ｃｎ第３５卷义如下数据结构：１）单元格ｃｌａｓｓＣｅｌｌ｛Ｓｔｒｉｎｇｃｏｎｔｅｎｔ；／／单元格中的值ｉｎｔｒｏｗ，ｃｏｌ，；／／单元格所在行和列ｉｎｔｃｏｌｓｐａｎ，ｒｏｗｓｐａｎ；／／单元格所跨越的行、列数ｉｎｔｆｌａｇ；／／单元格类型标识．｝其

7、中，ｆｌａｇ的值定义如下：①ｆｌａｇ＝１，ｃｏｎｔｅｎｔ的值为单元格中包含字符串内容；②ｆｌａｇ＝２，表示单元格中包含超链接，其值为超链接地址；③ｆｌａｇ＝３，表示ｃｏｎｔｅｎｔ中的内容为对象，比如表单、图片等，其值为对象的名字；④ｆｌａｇ＝４，表示ｃｏｎｔｅｎｔ中的内容为嵌套的表格，其值为嵌套表格所在表格数组中的下标．２）表格ＴａｂｌｅｃｌａｓｓＴａｂｌｅ｛ｉｎｔｒｏｗｓ，ｃｏｌｓ；／／行、列数ＬｉｎｋｅｄＬｉｓｔ＜Ｃｅｌｌ＞ｃｅｌｌｓ；／／组成表格的所有单元格｝３）Ｗｅｂ页面ＷｅｂＰａｇｅｃｌａｓｓ

8、ＷｅｂＰａｇｅ｛ｉｎｔｃｕｒｒｅｎｔＴａｂｌｅｓＮｕｍｂｅｒ＝０；／／当前已保存的表格数量Ｔａｂｌｅ［］ｔａｂｌｅｓ；／／页面包含的所有表格｝使用ＤＯＭ（ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅ１）树对网页信息进行分析，将网页解析成由该网页所包含的表格组成的数组构成的ＷｅｂＰａｇｅ的一个实例对象Ｗ．算法如下：Ｄｏｃｕｍｅｎｔｄ＝ｐａｒｓｅｒ．ｇｅｔＤｏｃｕｍｅｎｔ（）；ＮｏｄｅＬｉｓｔｔｓ＝ｄ．ｇｅｔＥｌｅｍｅｎｔｓＢｙＴａｇＮａｍｅ（“Ｔａｂ

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于信息量的Web表格信息抽取方法.pdf

基于信息量的Web表格信息抽取方法.pdf

相关文章

相关标签