基于本体的网页数据抽取技术的研究

基于本体的网页数据抽取技术的研究

ID:10139995

大小:30.00 KB

页数:7页

时间:2018-06-11

基于本体的网页数据抽取技术的研究_第1页
基于本体的网页数据抽取技术的研究_第2页
基于本体的网页数据抽取技术的研究_第3页
基于本体的网页数据抽取技术的研究_第4页
基于本体的网页数据抽取技术的研究_第5页
资源描述:

《基于本体的网页数据抽取技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于本体的网页数据抽取技术的研究摘要:随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。关键词:本体;网页数据抽取;包装器中图分类号:TP311文献

2、标识码:A文章编号:1009-3044(2014)16-3726-03Abstract:Withtherapidgrowthofinformationonthenetwork,thenetworkhasdevelopedintoahugedatabase,peoplearemoredesirabletogetpagesofdataquickly.Currently,thefieldofnaturallanguageprocessinghasfocusedthewebinformationextraction.Firstthispagerintro

3、ducesthebasicknowledgeofontology.Basedonthis,thispagerpresentsanewapproachtoextractinginformation7fromnormaldocumentbasedonontology.Thispaperfirstintroducessomebasicknowledegeabouttheontology,thenproposedandimplementedawebdataextractionmethod.Inthispager,ituseddomainontologyw

4、ords,conceptsandrelationshipstogenerateextractionrules,usedthesyntaxanalysismoduleforpre-processingtheinputdocument.Atlast,itachievethedataaccordingtoextractionrulesanddocumentsgeneratedbyparsing.Theexperimenthasshownthattheapprochgotaverygoodperformance.Keywords:ontology;web

5、informationextraction;wrapper1相关背景7随着网络的快速发展以及计算机在各个领域的广泛应用,网络已发展成为一个巨大的数据库。针对这些挑战,人们对在海量WEB信息中快速准确地找到所需的数据提出了更高的要求。为了解决这个问题,Web信息抽取开始逐步得到研究。目前Web信息抽取技术存在的主要问题有:(1)人工干预较多,大部分技术中都需要大量的样本训练集,给用户带来比较大的负担。(2)适应性差,根据具体信息源生成的包装器程序只能用于某种具体的网页结构。针对目前Web信息抽取技术存在的一些问题,通过研究已有的信息抽取技术,该文提

6、出了一种基于本体[1]的信息抽取方法,HTML源文件作为本系统的输入参数,输出的结果是包含主、谓、宾三种成分的三元组,可以将结果存入数据库。2基于本体的数据抽取的过程本文在研究了已经存在的网页信息抽取相关技术之后,设计了一个新的基于领域本体的网页数据抽取系统。抽取的主要过程分为以下几个步骤:1)信息抽取规则的生成。首先本体解析器对领域本体进行解析,再根据得到的结果自动生成数据抽取规则。2)对HTML文档进行预处理。对于实验所用的文件,经过预处理之后,语法分析过程再采用分词处理模块和句法分析模块对文本处理。3)数据抽取。根据前面的抽取规则,数据抽取

7、过程采用它抽取规则对预处理后的文本实现数据抽取。2.1信息抽取规则的生成首先介绍一下本体的基本知识。本体是关于某一领域的概念、关系等的描述。基于领域本体的网页数据抽取技术是针对某一具体领域的。该文使用的本体是OWL本体。本系统采用protege工具建立本体。本系统建立了一个手机领域的本体,如图1所示。7定义了手机的本体之后,接下来的工作是本体解析器的设计。经过对多种本体的数据库存储模式的观察与分析,该文提出一种新的存储模式来存储OWL本体。设计的表主要包括class表,property表和restriction表。通过对本体的解析,将得到抽取数据

8、的抽取规则。对于本系统中的手机本体,得到的抽取规则[4]见图2:2.2对HTML文档的预处理首先将HTML网页转化为对应的非格式化的文本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。