欢迎来到天天文库
浏览记录
ID:33288786
大小:3.64 MB
页数:62页
时间:2019-02-23
《deep+web查询接口识别与抽取技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、西安电子科技大学硕士学位论文DeepWeb查询接口识别与抽取技术研究姓名:杨柳申请学位级别:硕士专业:计算机软件与理论指导教师:陈平2011-01摘要fIIIIIIIilllIIIIIIIIIIIIY2238435访问Web数据库逐渐成为人们获取信息的主要手段,因此如何以自动的方式完成对Web数据库中信息的有效利用成为研究的热点。查询接口是Deepw曲数据库的唯一访问入口,通过I句DeepWeb查询接口提交查询是获得其中信息的主要途径。因此对查询接口识别与抽取技术的研究在整个DeepWeb数据集成系统中占有重要的地位。查询接口识别
2、是从众多网页表单中识别出查询接口。动态网页技术的发展,特别是JavaScript的出现,对表单的表现形式和提交方式产生了很大影响。本文借助Rhino弓I擎,实现TJavaScript数解析。并基于前人的研究成果,设计实现了一种基于最大熵模型的查询接口识别方法。实验表明,该查询接口识别方法的准确率高达95%。查询接口抽取的难点在于控件与表示其语义信息的提示文本的匹配。本文首先将查询接口按照结构的不同分成了四种类别,然后针对不同结构查询接口的特点,给出了属性匹配的方法,最后基于DOM实现了查询接口的属性抽取和匹配。在此方法的基础上,本
3、文还给出了一种改进方法一基于索引路径的查询接口抽取方法。实验表明,本文提出的方法抽取查询接口的Fmeasure值达到94%以上。关键词:DeepWeb查询接口查询接口识别查询接口抽取AbstractAccessingWebdatabasehasgraduallybecomethemainmeansofsearchinginformation.HowtoautomaticallyretrieveinformationontheWebdatabasehasbecomeahotspotwithindatabaseresearchcomm
4、unity.ResearchonsearchinterfaceidentificationandextractionpalyanimportantroleintheDeepWebdataintegrationsystem.Searchinterfaceidentificationaimstodistinguishsearchinterfacefromformsinwebpages.Thedevelopmentofdynamicwebpagetechniques,especiallytheemergenceofScriptLangu
5、ageJavaScript,hasasignificantimpactonthemanifestationsandsubmissionwayoftheform.ThisarticleutilizesRhinoenginetoanalyzetheJavaScriptcodesinaHTMLform.Basedonpreviousresearch,thispaperalsodesignsandimplementsamethodofsearchinterfaceidentificationwhichiSbasedonmaximument
6、ropymodel.Experimentalresultsshowthattheaccuracyofthequeryinterfaceidentificationishigherthan95%.Theinherentdifficultyofsearchinterfaceextractionistomatchformcontrolsandtextreferenceswhichexpresssemanticinformation.Searchinterfacesaredividedintofourtypesaccordingtoits
7、structure,andthenforitscharacteristicsofdifferentstructure,themethodformatchingattributesisgiven.Finally,basedofftheDOMtheory,theattributesextractionandmatchingofsearchinterfaceisimplemented.Onthebasisofthat,animprovedmethodisproposedinthispaper,thatis,amethodofthesea
8、rchinterfaceextractionbasedonthepathindex.TheexperimentalresultshowsthattheFmeasureofsearchinterfaceextractioncanachieve94%o
此文档下载收益归作者所有