欢迎来到天天文库
浏览记录
ID:52883937
大小:228.70 KB
页数:5页
时间:2020-03-31
《基于信息量的Web表格信息抽取方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第35卷第4期西南师范大学学报(自然科学版)2010年8月Vol.35No.4JournalofSouthwestChinaNormalUniversity(NaturalScienceEdition)Aug.2010文章编号:1000-5471(2010)04-0159-05基于信息量的Web表格信息抽取方法*曾广朴,陶维安长江师范学院数学与计算机学院,重庆涪陵408100摘要:提出一种基于有效信息量的Web表格信息抽取模型,该模型主要由表格定位和表格信息抽取二个模块组成,根据Web表格的内容特征来识
2、别主题表格,通过检查格式、语法的特征将表格分割成值域与属性域.实验结果表明该模型能够很好地应用于Web表格信息的抽取.关键词:Web表格;有效信息率;文档对象模型;信息抽取中图分类号:TP311.13文献标识码:A随着Internet的高速发展,Web已经成为一个巨大、分布和共享的信息空间.面对海量的数据资源,现今的搜索引擎技术在处理信息的粒度上还不能达到直接定位到所需数据所在准确位置的目的.因此,随着用户对Web信息的需求越来越高,Web信息抽取技术应运而生.表格作为一种简洁有效的数据信息表达方式,在
3、各领域的Web页面中都广泛应用,比如:网上购物、股票报价、航班时刻表等.因此,从Web[1]页面所包含的表格中提取信息成为Web信息抽取领域中一个重要且有价值的研究课题.本文针对Web表格信息抽取的一些关键技术和实现方法进行研究探讨,其目的是提出一种以Web表格为信息抽取对象的、适用于各种网页结构、能够较好并完整地抽取出表格中的单元信息和结构信息的表格信息抽取引擎.1相关工作现状Web表格信息抽取的提出始于上世纪九十年代末,近年来得到了一些学者和研究机构的关注,主要采[2]用的方法有手工编写代码的方法、
4、机器学习方法和启发式自动化方法.这些方法各有特点,手工编写代码方法表达能力强,但需要用户编写复杂的代码,且由于网页经常变化而维护困难;包装器归纳方式是目前国内外在信息抽取领域用得较多的一种方式,包装器归纳法是一种自动构造包装器的技术,主要思想是[3]用归纳式学习方法生成抽取规则,用户在一系列的网页中标记出需要抽取的数据,系统在这些例子的基础上归纳出规则,这些规则的精确度如何取决于例子的质量如何;本体论方法是一种很有前景的方法,但关键问题是如何有效地创建本体.目前,在该方法所需本体的创建大多需部分手工完成
5、;半自动的方法利用格式信息半自动地抽取Web结构信息,该方法只能抽取部分HTML表格;启发式自动化方法提出了一种抽取表格数据的自动方法,但没有给出具有嵌套的表头结构的表格的转换方法,并且它不能转换无标志[4]表头的HTML表格.本文中采用的是基于表格结构分析的方法来构造抽取模型.主要通过分析表格结构,将HTML标记定义的表格转化为一种逻辑表格结构,进而提取表格信息.2基于信息量的Web表格信息抽取2.1设计思想一个Web页面中通常包含一个或多个HTML表格,一个表格又由一个或多个单元格组成.因此,定*收
6、稿日期:2009-12-29基金项目:重庆市教委科学技术研究项目(KJ091309).作者简介:曾广朴(1966-),男,重庆人,讲师,主要从事网络信息系统及数据挖掘方面的研究.160西南师范大学学报(自然科学版)投稿网址http://xbgjxt.swu.cn第35卷义如下数据结构:1)单元格classCell{Stringcontent;//单元格中的值introw,col,;//单元格所在行和列intcolspan,rowspan;//单元格所跨越的行、列数intflag;//单元格类型标识.}其
7、中,flag的值定义如下:①flag=1,content的值为单元格中包含字符串内容;②flag=2,表示单元格中包含超链接,其值为超链接地址;③flag=3,表示content中的内容为对象,比如表单、图片等,其值为对象的名字;④flag=4,表示content中的内容为嵌套的表格,其值为嵌套表格所在表格数组中的下标.2)表格TableclassTable{introws,cols;//行、列数LinkedList<Cell>cells;//组成表格的所有单元格}3)Web页面WebPageclass
8、WebPage{intcurrentTablesNumber=0;//当前已保存的表格数量Table[]tables;//页面包含的所有表格}使用DOM(DocumentObjectMode1)树对网页信息进行分析,将网页解析成由该网页所包含的表格组成的数组构成的WebPage的一个实例对象W.算法如下:Documentd=parser.getDocument();NodeListts=d.getElementsByTagName(“Tab
此文档下载收益归作者所有