欢迎来到天天文库
浏览记录
ID:21041505
大小:70.27 KB
页数:11页
时间:2018-10-19
《基于xpath的新闻信息抽取系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、于XPath的新闻信息抽取系统设计与实现摘要:随着互联网技术的迅猛发展,因特网成为目前新闻信息最丰富最主要的来源。本文在分析新闻网页的基础上,并分析了目前现有的信息抽取技术和XML技术,提出了一个基于XML技术的Web新闻抽取系统。本文主要是充分运用XML中的XPath技术在数据定位方面的优势,并提出一种基于DOM树的XPath生成算法,使用XSLT语言用于描述抽取规则,并使用路径表达式XPath定位待抽取的信息点。关键词:数1据挖掘;信息抽取;新闻抽取系统;XPath中图分类号:TP391.3文献标识号:A文章编号:2095-2163(2015-)02-DesignandImplement
2、ationofNewsandInformationExtractionSystembasedonXPathRUANJuan(TaizhouVocational&TechnicalCollege,TaizhouZhejiang318000,China)Abstract:WiththerapiddevelopmentofInternettechnology,theInternetisnowthemainsourceofthemostabundantinformation.OnthebasisoftheanalysisofnewsWebpages,andanalysisofthecurrentex
3、istinginformationextractiontechnologyandXMLtechnology,thepaperpresentsaWebnewsextractionsystembasedonXMLtechnology.ThispapermainlyusestheXPathXMLtechnologyindatalocationadvantages,andputsforwardaDOMtreebasedXPathgenerationalgorithm,usingXSLTlanguagetodescribetheselectionrules,andthepathexpressionXP
4、athtoextractinformationpoint.Keywords:DataMining;InformationExtraction;NewsandInformationExtractionSystem;XPath0引言随着时代发展,高校信息化建设成为影响学校发展的重要因素。目前高校主要活动由党委宣传部集中拫道并及时发布门户网站,其他信息则由宣传部下属各二级单位信息员提供,或是宣传部采集二级网站新闻来进行获取。但网站在为学校教职工提供大量丰富信息的同时,却也为如何获得更加高效实用信息带来了巨大挑战,具体来说主要包括两个方面。一方面,随着学校的发展,各系部处室工作内容的增加,Web信息
5、呈现爆炸式地增长,这就需要耗费信息采集员大量的时间、精力去搜集信息,但该种方式仍然还是会出现信息遗漏或新闻失去时效性等众多问题。另一方面,虽然二级网站存在本站搜索引擎,但是并没能给信息获取带来便捷。针对这一状况,并且随着对于信息获取要求的提高,用户已然趋向于更加精细、便捷的信息抽取方式。1目前国内外信息抽取系统Web信息抽取的主要信息源就是互联网。互联网的Web页上散布着隐含在HTML页面中的信息点,信息抽取的目的就是将用户需要查询和利用的信息从网页上提取出来[1],并转换成具有清晰语义的结构化文档形式,再反馈给用户。从20世纪80年代开始,信息抽取技术即已成为IT行业的研究热点之一。随着互
6、联网的普及,Web信息抽取方面的研究逐渐兴起,研究人员开发了多种算法和系统。目前在世界上最为著名的“Web挖掘”项目就是卡耐基?梅隆大学的“自动学习和发现中心”[2]。这个项目的主要实现目标就是通过大型数据库存储自动从Web中提取的用户所需信息。国内一些单位对信息抽取方面也已开展了大量研究。例如中科院软件所研究的“基于D0M的信息抽取”[3],其抽取规则主要是通过归纳学习法半自动化算法生成。数据源包装器中的类就是由抽取规则而产生及实现的。2基于XPath的信息抽取方法2.1抽取方法概述抽取规则生成是信息抽取的核心任务,而抽取规则实际上就是定位用户感兴趣的信息数据。若要定位Web文档中的数据,
7、就必须从头至尾遍历网页。但这一方式却会严重影响信息抽取效率。在此,为了减小信息抽取的搜索空间,本文采用了Xpath的抽取方法。基于XPath规则的信息抽取过程则如图1所示。1基于XPath的抽取方法Fig.1ExtractionmethodbasedonXPath基于XPath的抽取方法主要包括如下三步:(1)首先需进行数据清洗。系统可从互联网下载用户所需的Web文档,将其转化成规范的XML文档。这一步骤的主
此文档下载收益归作者所有