deep+web查询接口识别与抽取技术研究

deep+web查询接口识别与抽取技术研究

ID:33288786

大小:3.64 MB

页数:62页

时间:2019-02-23

deep+web查询接口识别与抽取技术研究_第1页
deep+web查询接口识别与抽取技术研究_第2页
deep+web查询接口识别与抽取技术研究_第3页
deep+web查询接口识别与抽取技术研究_第4页
deep+web查询接口识别与抽取技术研究_第5页
资源描述:

《deep+web查询接口识别与抽取技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西安电子科技大学硕士学位论文DeepWeb查询接口识别与抽取技术研究姓名:杨柳申请学位级别:硕士专业:计算机软件与理论指导教师:陈平2011-01摘要fIIIIIIIilllIIIIIIIIIIIIY2238435访问Web数据库逐渐成为人们获取信息的主要手段,因此如何以自动的方式完成对Web数据库中信息的有效利用成为研究的热点。查询接口是Deepw曲数据库的唯一访问入口,通过I句DeepWeb查询接口提交查询是获得其中信息的主要途径。因此对查询接口识别与抽取技术的研究在整个DeepWeb数据集成系统中占有重要的地位。查询接口识别

2、是从众多网页表单中识别出查询接口。动态网页技术的发展,特别是JavaScript的出现,对表单的表现形式和提交方式产生了很大影响。本文借助Rhino弓I擎,实现TJavaScript数解析。并基于前人的研究成果,设计实现了一种基于最大熵模型的查询接口识别方法。实验表明,该查询接口识别方法的准确率高达95%。查询接口抽取的难点在于控件与表示其语义信息的提示文本的匹配。本文首先将查询接口按照结构的不同分成了四种类别,然后针对不同结构查询接口的特点,给出了属性匹配的方法,最后基于DOM实现了查询接口的属性抽取和匹配。在此方法的基础上,本

3、文还给出了一种改进方法一基于索引路径的查询接口抽取方法。实验表明,本文提出的方法抽取查询接口的Fmeasure值达到94%以上。关键词:DeepWeb查询接口查询接口识别查询接口抽取AbstractAccessingWebdatabasehasgraduallybecomethemainmeansofsearchinginformation.HowtoautomaticallyretrieveinformationontheWebdatabasehasbecomeahotspotwithindatabaseresearchcomm

4、unity.ResearchonsearchinterfaceidentificationandextractionpalyanimportantroleintheDeepWebdataintegrationsystem.Searchinterfaceidentificationaimstodistinguishsearchinterfacefromformsinwebpages.Thedevelopmentofdynamicwebpagetechniques,especiallytheemergenceofScriptLangu

5、ageJavaScript,hasasignificantimpactonthemanifestationsandsubmissionwayoftheform.ThisarticleutilizesRhinoenginetoanalyzetheJavaScriptcodesinaHTMLform.Basedonpreviousresearch,thispaperalsodesignsandimplementsamethodofsearchinterfaceidentificationwhichiSbasedonmaximument

6、ropymodel.Experimentalresultsshowthattheaccuracyofthequeryinterfaceidentificationishigherthan95%.Theinherentdifficultyofsearchinterfaceextractionistomatchformcontrolsandtextreferenceswhichexpresssemanticinformation.Searchinterfacesaredividedintofourtypesaccordingtoits

7、structure,andthenforitscharacteristicsofdifferentstructure,themethodformatchingattributesisgiven.Finally,basedofftheDOMtheory,theattributesextractionandmatchingofsearchinterfaceisimplemented.Onthebasisofthat,animprovedmethodisproposedinthispaper,thatis,amethodofthesea

8、rchinterfaceextractionbasedonthepathindex.TheexperimentalresultshowsthattheFmeasureofsearchinterfaceextractioncanachieve94%o

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。