欢迎来到天天文库
浏览记录
ID:32239373
大小:3.08 MB
页数:65页
时间:2019-02-02
《可视化网页信息抽取系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、北京工商大学硕士学位论文摘要随着Interact上信息的迅猛增长,Web已成为信息的海洋,如何从这片遍布全球的信息海洋中快速准确的获取所需要的信息已成为一个极具现实意义的重大课题。Web信息抽取技术正是在这样的背景下应运而生的。分装器(WrappeO技术是当前Web信息抽取广泛采用的一种技术,针对分装器生成问题,人们提出了各种各样的方法,但这些方法都有其应用的局限性。本文在利用国内外成果的基础上,进行了一些有益的探索,提出了一种新型的基于工作流的Web信息抽取机制,意在通过提供大量的信息抽取功能组件来简化信息抽取分装器程序的开发。所做的
2、研究工作主要包括:c(1)改进了传统的基于DOM树的页面分析技术,从增强系统易用性的角度出发,使用一个Java浏览器引擎设计了一个小型的系统内嵌浏览器,使用户能够直接在样本页面中通过鼠标来灵活的定义需要抽取的各种信息,如文本、图片、表格等等。(2)将工作流技术应用到信息抽取系统中,设计了信息抽取工作流的基本模型,实现了一个可视化的信息抽取工作流模型定义工具,使用户能够定义自己的抽取流程,同时系统能够模拟用户浏览网页时的一些基本动作,如翻页、提交表单、输入等等,使得信息抽取就像平时我们自己上网搜寻信息一样。(3)设计实现了一个可扩展的信息
3、抽取动作框架,使用户能够扩充自己的信息抽取算法。同时实现了大量的信息抽取原子动传如文本抽取、图片抽取、提交表单、输入文字、遍历标签等等。本文的创新所在是将工作流机制引入了信息抽取系统的设计之中,并提供了一个完全可视化的工作平台,让用户能够以所见即所得的方式快速完成信息抽取任务。实验表明本文构建的可视化网页信息抽取系统能够帮助用户快速、准确的构造用于从网页上抽取信息的分装器程序,是一个通用的信息抽取平台,有着很好的实用价值。关键字:Web信息抽取,工作流,分装器,DOM可视化网页信息抽取系统的设计与实现AbstractWiththerap
4、idgrowthofinformationintheinternet,webworldhasbecometheseaoftheinformation.Howtoobtaintheneededinformationrapidlyandaccuratelyfromtheinformationseaacrosstheworldhasbecomeanimportantthesisofpracticalsignificance.WebInformationExtractiontechnologyjustaroseundersuchbackgrou
5、nd.Wrapperiscurrentlywidelyusedforwebinformationextraction.Manyapproacheshavebeenproposedtoeasewrappergeneration.Butallofthemhavethelimitationintheapplication.Thispaperhascarriedoutsomebeneficialexplorationsonthefoundationthatusesdomesticandinternationalaccomplishment.Pr
6、esentsanovelwebinformationautomaticextractingmechanismbasedontheworkflow,whichtryingtosimplifythewrappergenerationbyprovidingaplentyofinformationextractionfunctioncomponents.Themainresearchesareasfollow:(1)Improvedthetraditionaltree-basedpageanalysistechnology.Toenhances
7、ystemfromtheviewofeaseofuse,asmallembeddedbrowserisdesignedbyaJavabrowserengine,enablinguserstousemousetotakeaflexibledefinitionofthevariouskindsofinformationinthesamplepage,suchastext,pictures,form,andSOon。(2)Workflowisappliedtotheinformationextractionsystems.Designtheb
8、asicinformationextractionworkflowmodelandachieveallinformationextractionworkflowmodeldefinitiontool,ena
此文档下载收益归作者所有