欢迎来到天天文库
浏览记录
ID:54017997
大小:409.72 KB
页数:11页
时间:2020-04-28
《基于Ontology的Web内容二阶段半自动提取方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第27卷第3期计算机学报VoI.27No.32004年3月CHINESEJOURNALOFCOMPUTERSMar.2004基于Ontology的Web内容二阶段半自动提取方法高军王腾蛟杨冬青唐世渭(北京大学信息科学技术学院北京100871)(北京大学视觉与听觉处理国家重点实验室北京100871)摘要目前Web中的海量信息已经成为人们重要的信息来源,如何从大量半结构化或无结构的HTML网页中提取信息已成为目前的研究热点.但是Web页面的初始设计目的是为了方便用户浏览,而不是便于应用程序自动处理,如何实现一个精确的、应用广泛的提取系
2、统面临很多困难.传统的方法可以粗略划分为基于交互产生的包装程序和自动生成的包装程序,但是基于交互产生的包装程序不具备普遍的应用性,基于自动生成的包装程序准确性不高.该文提出了一种新的二阶段基于语义的半自动提取方法,在保证提取准确性的前提下,尽可能减少交互操作,同时随着参与网站的增加,逐步提高包装程序生成的自动化.相对于目前的方法,该文方法同时考虑了包装程序提取结果的准确性和提取过程的应用普遍性.其有效性在原型系统中得到验证.应用该方法,已经成功提取了120万HTML页面.关键词Web提取;领域OntoIogy;应用OntoIogy
3、;XML中图法分类号TP311Ontology-basedTwo-phaseSemi-automaticWebExtractingGAOJunWANGTeng-JiaoYANGDong-oingTANGShi-Wei(SchoolofElectronicsEngineeringandComputerScience,PekingUniuersity,Beijing100871)(NationalLaboratoryonMachinePerception,PekingUniuersity,Beijing100871)abstractT
4、hemassiveinformationontheWebhasbecomeanimportantinformationsourceforpeopIe.Howtoextractinformationfromsemi-structuredorunstructuredHTMLpagesreceivesmuchattention.However,theoriginaIintentionofwebpagesisnottobeprocessedbyappIicationautomaticaIIy,buttobebrowsedbyhumans.
5、ItisdifficuIttodesignaprecisewebdatawrapperwithhighappIicabiIity.RoughIy,existingmethodscanbecIassifiedintointeractive-basedwrappergenerationandautomaticaIIywrappergeneration,buttheformermethodIacksappIicabiIitywhiIetheIattermethodIackstheprecisionofextraction.Thispap
6、erproposesanoveItwo-phasesemi-automaticaIIyprecisewebextractingmethod.ThemethodtriestoreducetheinteractiveworkinwrappergenerationprocessasmuchaspossibIewhiIemaintaintheprecisionofextractionresuItatthesametime.Inaddition,withtheincreaseofextractedwebpages,theautomatici
7、tyintheprocesswiIIaIsobeimproved.Comparedwiththeexistingmethods,themethodproposedinthispapertakesboththeprecisionofgueryresuItandtheappIicabiIityofwrapperintoaccount.ThemethodhasbeenvaIidatedinauthors’prototype,whichhasextracted1,200thousandwebpagessuccessfuIIy.Keywor
8、dsWebextraction;domainontoIogy;appIicationontoIogy;XML收稿日期:2001-12-20;修改稿收到日期:2003-06-10.本课题得到国家“九七三”重点基础研究发展规划项目基金(G1999032
此文档下载收益归作者所有