基于模板和领域本体的DeepWeb信息抽取研究-论文.pdf

基于模板和领域本体的DeepWeb信息抽取研究-论文.pdf

ID:53570139

大小:667.94 KB

页数:6页

时间:2020-04-18

基于模板和领域本体的DeepWeb信息抽取研究-论文.pdf_第1页
基于模板和领域本体的DeepWeb信息抽取研究-论文.pdf_第2页
基于模板和领域本体的DeepWeb信息抽取研究-论文.pdf_第3页
基于模板和领域本体的DeepWeb信息抽取研究-论文.pdf_第4页
基于模板和领域本体的DeepWeb信息抽取研究-论文.pdf_第5页
资源描述:

《基于模板和领域本体的DeepWeb信息抽取研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2014年1月计算机工程与设计Jan.2014第35卷第1期COMPUTERENGINEERINGANDDESIGNV0L35No.1基于模板和领域本体的DeepWeb信息抽取研究顾韵华。,高原。,高宝。,杜杰(1.南京信息工程大学江苏省网络监控中心,江苏南京210044;2.南京信息工程大学计算机与软件学院,江苏南京210044)摘要:为简化模板的抽取规则、提高抽取的准确率,提出了一种基于双模板和领域本体的DeepWeb信息抽取方法。该方法采用DIV块模板和表格模板结合的方法,建立双模板。利用基于中文分词的网页预处理结果,在领域本体知识的指导下,通过C

2、4.5决策树算法来训练分类模型,筛选出待抽取的DIV块序号,构建DIV块模板,从而可以精确定位到数据块。利用XML技术构建XSLT文档,得到表格模板的抽取规则,从而抽取出数据片段。选取天气领域进行DeepWeb信息抽取实验,实验结果表明,抽取准确率和召回率都可以达到95以上,取得了较好的抽取效果。关键词:DeepWeb;信息抽取;模板;领域本体;决策树中图法分类号:TP311文献标识号:A文章编号:1000—7024(2014)01—0327—06ResearchonDeepWebinformationextractionbasedontemplatea

3、nddomainontologyGuYun-hua.-,GAOYuan.-,GAOBao一,DUJie,(1.JiangsuEngineeringCenterofNetworkMonitoring。NanjingUniversityofInformationScienceandTechnology,Nanjing210044,China;2.CollegeofComputerandSoftware,NanjingUniversityofInformationScienceandTechnology,Nanjing210044,China)Abstract

4、:Tosimplifytheextractionrulesforthetemplatetoimprovetheextractionaccuracy,analgorithmbasedontemplateanddomainontologywaspresentedtoextractDeepWebinformation.ThecombinationsofDIVblocktemplateandtabletem-plateareused.UsingtheresultofwebpagepretreatmentbasedonChinesewordsegmentation

5、,undertheguidanceofdomainontologyknowledge,bythealgorithmofC4.5decisiontreetOtraintheclassifier。thenumberofextractedDIVblocksisselec-ted,andthetemplateofDIVblocksisbuiltwhichcan1ocatethedataarea.ThenXSLTdocumentisconstructedusingthetech—nologyofXML,andformingthetabletemplatehelps

6、extractingthedatafragment.TheresultoftheDeepWebinformationextractionexperimentinthefieldofweather,showthataverageaccuracyrateandrecallratecanachieveabove95andbetterextractioneffectisobtained.Keywords:DeepWeb:informationextraction;template;domainontology;decisiontreeDeepWeb信息抽取的目的

7、是从DeepWeb结果页面中0引言抽取出有价值的信息[3]。虽然目前的抽取技术已经发展到DeepWeb相对于表面网(surfaceweb)而言,蕴含着自动化程度,但抽取数据的准确率较低且抽取规则的适应更加丰富而专业的数据资源。据统计,中国DeepWeb大性较差。手工编写规则可以达到很高的准确率,但是规则约有24000个站点,28000个后台数据库和74000个查询接繁琐,代价也很大。本文引入DIV块和表格双重模板,同口,目前仍在快速增长。有效的利用DeepWeb的丰富信时,考虑信息内部联系,引入领域本体来指导模板的建立,息资源,能够更好地满足人们学习和查

8、找知识的需求。可减少无关信息,简化模板的抽取规则,提高抽取的准确收稿日期:201

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。