欢迎来到天天文库
浏览记录
ID:46049195
大小:62.50 KB
页数:3页
时间:2019-11-20
《WEB就业信息抽取技术研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、WEB就业信息抽取技术研究WEB就业信息抽取技术研究摘耍:随着Internet的快速发展,网络已成为人们查询信息的重要渠道。Web作为巨大的数据源,从Web中提取知识是当前研究的热点之一。在这些海量信息中,大多都是基于HTML的。该文提出一种基于HTML结构的Web就业信息抽取模型。关键词:信息抽取;HTML;就业信息;WEB表格中图分类号:TP391文献标识码:A文章编号:1009-3044(2013)10-2298-031概述随着Internet的快速发展,互联网正在快速渗透到人们的日常生活中,网络已成为人们获取信息的主要渠道之一。网络有信息量大和使用方便快捷的特点,在当前严峻的就业形
2、势下,成为人们了解就业信息的重要手段。因此面对如此浩大混杂的网络信息海洋,研究怎样从就业信息发布网站中抽取出有用的信息,十分有意义。在这些网络信息中,大多都是使用HTML表示的,也就是说现阶段的Web网贝大部分是采用超文本标记语言HTML(HypertextMarkupLanguage)进行描述的。HTML是半结构化的,这种语言用定义好的标签来组织信息,用户看到的网络信息就是经过浏览器解析HTML形成的。然而,HTML在语法限制上并不严格,语义也不清晰,页面内部还加入了Javascript脚本语言,人们想要从网页中快速准确的获得有用的信息十分困难。目前基于HTML结构的信息抽取,对需耍抽取
3、的信息点定位的依据是Web页面的结构特征。通过将页面文档解析为语法树并对其学习产生抽取规则,把信息抽取过程转化为操作语法树来实现信息的抽取。目前比较具有代表性的系统有Wrap.W4F、LIXT0和RoadRunner。2信息抽取模型我们发现此类网站的页面结构比较简单和统一,就业信息在页面中都是用Table表格作为表达方式集中起來。因此,我们将对此类网站信息提取的研究重点主要放在对Web页中表格信息抽取的研究上。具体来说,我们将Web中的表格分为以下两类:1)假表格:其作用是布局网页结构和美化页面的,里面不包含我们需要的数据信息,在这些表格中一般都包含大量图片、广告或链接等内容,我们叫它假表
4、格。但是也不排除假表格中包含数据信息,比如,我们要抽取出表格中包含的就业信息。在同一页面中,可能同吋存在另外一张表格,其中包含火车票价格的信息。虽然表格中的火「乍票价格也是数据信息,但并非我们所需要的,这种表格我们也称它为假表格。页面清洗解析:对获得的WEB页进行代码过滤、页面清洗,将IITML文档转化成结构化的、语法要求严格的文档,这里指符合XML标准格式的文档。然后根据文档对象模型,HTML文档被解析后,转化为DOM树。DOM树的每个结点是一个对象。DOM模型描述了文档的结构,利用对象的方法和属性,可以方便地访问、添加和删除DOM树的结点和内容。表格定位:定位出真止包含用户感兴趣信息的
5、真表格,过滤掉假表格。信息抽取:识别表格内容并提取信息。3数据抽取实现3.1页面清洗解析3.2WEB表格定位在HTML页面中,数据表格指的是用來组织和显示数据信息的〈TABLE〉和〈/TABLE〉标签中的区域。它的特点是:清晰、简洁、逻辑性和对比性强,这些表格中有些包含用户感兴趣的信息,对于我们的研究来说,属于“真表格”。这种表格是我们要进行信息抽取的对象。非数据表格是指被用来进行页面布局的<TABLE>区域,能达到美化页面的效果,在我们的研究中,属于噪音信息,我们称之为“假表格”o我们要定位出真止包含用户感兴趣信息的真表格,过滤掉假表格。根据以上提出的规则在WEB就业信息网页中我们可以定
6、位“真表格”的位置,这部分表格经过IITMLParser的解析得到了较好的结果。我们可以到这些单元格之间的行列关系并很好地抽取出表格中的每个单元格数据。图3提取出的表格信息4总结本文研究的Web就业信息抽取的技术虽在一定程度上解决了就业信息的抽取困难,但在许多方面仍存在不足,需进一步研究。首先是在文档页面结构较为复杂的时候,抽取的准确率会降低,因此,需要进一步研究加强抽取规则的通用性;其次,本研究主要针对Web上的就业信息抽取,对其他信息点抽取还不具有通用性。参考文献:[1]蒲筱哥•基于Web的信息抽取技术研究综述[J]•现代情报,2007(27):215-219.(下转第2303页)(上
7、接第2300页)[2]石宇•基于XML的Web信息抽取与集成技术的研究[D].大连:大连海事大学硕士学位论文,2006.[3]秦振海,谭守标,徐超•基于web的表格信息抽取研究[J].计算机技术与发展(原微机发展),2009,19(2):217-220.[4]王海潮•基于网页结构的信息抽取关键技术研究[D]•广州:华南理工大学,2011.[5]李剑波•一种基于XML的Web信息抽取方法[J]・情报杂志,2006(8):4
此文档下载收益归作者所有