基于Ontology的Web内容二阶段半自动提取方法.pdf

基于Ontology的Web内容二阶段半自动提取方法.pdf

ID:54017997

大小:409.72 KB

页数:11页

时间:2020-04-28

基于Ontology的Web内容二阶段半自动提取方法.pdf_第1页
基于Ontology的Web内容二阶段半自动提取方法.pdf_第2页
基于Ontology的Web内容二阶段半自动提取方法.pdf_第3页
基于Ontology的Web内容二阶段半自动提取方法.pdf_第4页
基于Ontology的Web内容二阶段半自动提取方法.pdf_第5页
资源描述:

《基于Ontology的Web内容二阶段半自动提取方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第27卷第3期计算机学报VoI.27No.32004年3月CHINESEJOURNALOFCOMPUTERSMar.2004基于Ontology的Web内容二阶段半自动提取方法高军王腾蛟杨冬青唐世渭(北京大学信息科学技术学院北京100871)(北京大学视觉与听觉处理国家重点实验室北京100871)摘要目前Web中的海量信息已经成为人们重要的信息来源,如何从大量半结构化或无结构的HTML网页中提取信息已成为目前的研究热点.但是Web页面的初始设计目的是为了方便用户浏览,而不是便于应用程序自动处理,如何实现一个精确的、应用广泛的提取系

2、统面临很多困难.传统的方法可以粗略划分为基于交互产生的包装程序和自动生成的包装程序,但是基于交互产生的包装程序不具备普遍的应用性,基于自动生成的包装程序准确性不高.该文提出了一种新的二阶段基于语义的半自动提取方法,在保证提取准确性的前提下,尽可能减少交互操作,同时随着参与网站的增加,逐步提高包装程序生成的自动化.相对于目前的方法,该文方法同时考虑了包装程序提取结果的准确性和提取过程的应用普遍性.其有效性在原型系统中得到验证.应用该方法,已经成功提取了120万HTML页面.关键词Web提取;领域OntoIogy;应用OntoIogy

3、;XML中图法分类号TP311Ontology-basedTwo-phaseSemi-automaticWebExtractingGAOJunWANGTeng-JiaoYANGDong-oingTANGShi-Wei(SchoolofElectronicsEngineeringandComputerScience,PekingUniuersity,Beijing100871)(NationalLaboratoryonMachinePerception,PekingUniuersity,Beijing100871)abstractT

4、hemassiveinformationontheWebhasbecomeanimportantinformationsourceforpeopIe.Howtoextractinformationfromsemi-structuredorunstructuredHTMLpagesreceivesmuchattention.However,theoriginaIintentionofwebpagesisnottobeprocessedbyappIicationautomaticaIIy,buttobebrowsedbyhumans.

5、ItisdifficuIttodesignaprecisewebdatawrapperwithhighappIicabiIity.RoughIy,existingmethodscanbecIassifiedintointeractive-basedwrappergenerationandautomaticaIIywrappergeneration,buttheformermethodIacksappIicabiIitywhiIetheIattermethodIackstheprecisionofextraction.Thispap

6、erproposesanoveItwo-phasesemi-automaticaIIyprecisewebextractingmethod.ThemethodtriestoreducetheinteractiveworkinwrappergenerationprocessasmuchaspossibIewhiIemaintaintheprecisionofextractionresuItatthesametime.Inaddition,withtheincreaseofextractedwebpages,theautomatici

7、tyintheprocesswiIIaIsobeimproved.Comparedwiththeexistingmethods,themethodproposedinthispapertakesboththeprecisionofgueryresuItandtheappIicabiIityofwrapperintoaccount.ThemethodhasbeenvaIidatedinauthors’prototype,whichhasextracted1,200thousandwebpagessuccessfuIIy.Keywor

8、dsWebextraction;domainontoIogy;appIicationontoIogy;XML收稿日期:2001-12-20;修改稿收到日期:2003-06-10.本课题得到国家“九七三”重点基础研究发展规划项目基金(G1999032

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。