基于模板的网页信息抽取技术研究_杨一柳.pdf

基于模板的网页信息抽取技术研究_杨一柳.pdf

ID:52885939

大小:645.09 KB

页数:4页

时间:2020-03-31

基于模板的网页信息抽取技术研究_杨一柳.pdf_第1页
基于模板的网页信息抽取技术研究_杨一柳.pdf_第2页
基于模板的网页信息抽取技术研究_杨一柳.pdf_第3页
基于模板的网页信息抽取技术研究_杨一柳.pdf_第4页
资源描述:

《基于模板的网页信息抽取技术研究_杨一柳.pdf》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、第34卷第3期渤海大学学报(自然科学版)Vol.34,No.92013年9月JournalofBohaiUniversity(NaturalScienceEdition)Sep.2013基于模板的网页信息抽取技术研究*杨一柳(渤海大学大学计算机教研部,辽宁锦州121013)摘要:准确挖掘网页中的信息对检索系统非常重要.提出了一种基于模板的网页信息抽取方法进行网页信息抽取.该方法采用网页抓取与数据模板技术实现了网页信息的自动发现与抽取.在Yahoo网站上的实验结果表明,该方法具有较好的检索效果.关键词:模板;信息抽取;网络爬虫中图分类号:TP39文献标志码:A文

2、章编号:1673-0569(2013)03-0320-040引言随着互联网的普及,越来越多的信息以网页的形式出现在人们面前.为了帮助人们在海量信息中迅速找到真正所需要的信息,应对信息爆炸带来的严重挑战,迫切需要借助计算机帮助人们从这些数据中准确〔1〕提取出有用的信息,信息抽取系统正是在这种背景下产生的.信息抽取技术不仅能够帮助我们在互联网上找到自己所需要的信息,而且也可以将网页信息转换为数据库记录,方便用户的检索和使用.检索系统首先要有语料资源支持,而语料信息的新鲜度决定了语料库检索系统的效果.互联网拥有丰〔2〕富的网页资源,为我们构建专业语料库系统提供了丰富

3、的素材.但是互联网上海量的数据,为数据的获取带来了较大的难度.因此,进行网页抓取和数据抽取技术的研究,为检索系统提供互联网上的语料信息,〔3〕具有十分重要的理论和现实意义.1基于模板的网页数据抽取技术〔4〕通用的网页数据抽取技术主要是包括人工抽取和自动抽取.人工抽取是手工编写代码对目标网页进行手动信息抽取,这种方法在实际应用中可行性较低.自动抽取方法主要利用网络爬虫来进行页面的获〔5〕〔6〕取,并对获取结果进行标记,如Wrapper技术、智能Agent等.通过对比分析不同的网站,发现同一网站中网页的格式,往往由数量很少的固定模板承载,各个页面拥有相似的结构,便

4、于我们自动化处理.网页内容可能会更新,其模板却相对可靠稳定.基于此,提出了基于模板的网页数据抽取的思路:首先对特定的网页配置抽取模板,其次在模板中定位需要提取的信息,最后将其存入到数据库中,构建检索系统.基于模板的网页抽取系统与之前的爬虫系统不同,网页通过模板,然后转化为结构化数据,网页格式的变化不需要修改抽取系统的代码.网页的抽取过程如图1所示.收稿日期:2013-03-05.作者简介:杨一柳(1987-),讲师,主要从事计算机辅助教育等方面的研究.通讯作者:yliu0326@163.com.第3期杨一柳:基于模板的网页信息抽取技术研究321图1网页抽取过程

5、2系统体系结构2.1系统架构基于模板的网页抽取系统由网页抓取和数据抽取两大功能模块组成,其中网页抓取模块是使用网络爬虫去抓取HTML网页的过程;数据抽取模块部分,使用XSL模块抽取数据.数据的流向是HTML→XML〔7〕→数据库,从非结构化向结构化逐步转变,最终转换成可以利用的、定义良好的结构化数据.网页抽取的系统结构图如图2所示.图2网页抽取系统结构图2.2网页抓取模块要获取网络上的资源,首先必须要构造一个高效的自动获取HTML的工具,即网络爬虫.在具体的实〔7〕现中,扩展了开源爬虫Web-Harvest,Web-Harvest是一个基于Java的开源Web

6、数据抽取工具.它能够收集指定的Web页面,并从这些页面中提取有用的数据.Web-Harvest主要运用了像XSLT、XQuery、正则表达式等技术来实现对html/xml的操作.为了提高对html文件中链接的抽取效果,在Web-Harvest中嵌入了HTMLParse这个网页解析器,扩展了链接抽取功能,提高了解析的正确率.2.3数据抽取模块系统的核心模块是数据抽取,在进行数据抽取过程中,需要考虑下面两点技术问题:(1)数据定位的准确性根据周围内容的相对路径,而不是选择一个从根开始的绝对路径.属性的选取方面,尽量选取与网页内容相关、格式无关的属性.322渤海大学

7、学报(自然科学版)第34卷(2)中文编码转换网页有不同的编码方式,不同的开源工具也支持不同的字符集.该方案采用字节流的方式进行读取,然后转换成指定的编码格式.该模块实现的算法做如下描述:〔5〕第一步:将抓取到的网页格式进行规范化,利用JDOM将其转化为DOM树;第二步:获取数据引用点,编写XSL模板查找数据的引用点;第三步:定位XML文档中元素和属性,将HTML文件映射为XML文件;第四步:正向扫描XML文件,获得属性标签和属性内容;第五步:构造HashMap散列表,键对应XML标签,值对应标签内容,第六步:将XML文件中抽取的数据存入数据库.3实验实验选择查

8、全率与查准率作为评价指标,公式如下:抽

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。