基于本体的网页数据抽取技术的研究-论文.pdf

基于本体的网页数据抽取技术的研究-论文.pdf

ID:53761932

大小:763.29 KB

页数:3页

时间:2020-04-24

基于本体的网页数据抽取技术的研究-论文.pdf_第1页
基于本体的网页数据抽取技术的研究-论文.pdf_第2页
基于本体的网页数据抽取技术的研究-论文.pdf_第3页
资源描述:

《基于本体的网页数据抽取技术的研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ISSN1009-3044E—mail:jsh@dnzs.net.cnComputerKnowledgeandTechno~gy电脑知识与技术http://www.dnzs.net.cnTel:+86—55l一6569096365690964基于本体的网页数据抽取技术的研究常丽君(南京财经大学信息工程学院,江苏南京210046)摘要:随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关

2、于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。关键词:本体;网页数据抽取;包装器中图分类号:TP311文献标识码:A文章编号:1009—3O44(2014)16—3726一O3WebInformationExtractionBasedOHOntologyCHANGLi_jun(SchoolofI

3、nformationEngineering,NanjingUniversityofFinance&Economics,Nanjing210046,China)Abstract:Withtherapidgrowthofinformationonthenetwork,thenetworkhasdevelopedintoahugedatabase,peoplearemoredesirabletOgetpagesofdataquickly.Currently,thefieldofnaturdlanguageprocessi

4、nghasfocusedthewebinformationextraction.Firstthispagerintroducesthebasicknowledgeofontology.Basedonthis,thispagerpresentsanewapproachtOex—tractinginformationfromnormaldocumentbasedonontology.Thispaperfirstintroducessomebasicknowledegeabouttheon—tology,thenprop

5、osedandimplementedawebdataextraction~nethod.Inthispager,ituseddomainontologywords,conceptsandrelationshipstOgenerateextractionrules,usedthesyntaxanalysismoduleforpre—processingtheinputdocument.Atlast,itachievethedataaccordingtOextractionrulesanddocumentsgenera

6、tedbyparsing.Theexperimenthasshownthattheapprochgotaverygoodperformance.Keywords:ontology;webinformationextraction;wrapper1相关背景随着网络的快速发展以及计算机在各个领域的广泛应用,网络已发展成为一个巨大的数据库。针对这些挑战,人们对在海量WEB信息中快速准确地找到所需的数据提出了更高的要求。为了解决这个问题,Web信息抽取开始逐步得到研究。目前Web信息抽取技术存在的主要问题有:(1)人工干预

7、较多,大部分技术中都需要大量的样本训练集,给用户带来比较大的负担。(2)适应性差,根据具体信息源生成的包装器程序只能用于某种具体的网页结构。针对目前Web信息抽取技术存在的一些问题,通过研究已有的信息抽取技术,该文提出了一种基于本体[1l的信息抽取方法,HTML源文件作为本系统的输入参数,输出的结果是包含主、谓、宾三种成分的三元组,可以将结果存人数据库。2基于本体的数据抽取的过程本文在研究了已经存在的网页信息抽取相关技术之后,设计了一个新的基于领域本体的网页数据抽取系统。抽取的主要过程分为以下几个步骤:1)信息抽取

8、规则的生成。首先本体解析器对领域本体进行解析,再根据得到的结果自动生成数据抽取规则。21对HTML文档进行预处理。对于实验所用的文件,经过预处理之后,语法分析过程再采用分词处理模块和句法分析模块对文本处理。3)数据抽取。根据前面的抽取规则,数据抽取过程采用它抽取规则对预处理后的文本实现数据抽取。2.1信息抽取规则的生成首先介绍一下本体的基本知识。本体是关于某

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。