欢迎来到天天文库
浏览记录
ID:33095901
大小:1.11 MB
页数:60页
时间:2019-02-20
《面向领域的deep+web查询接口发现研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、暨南大学硕士学位论文题名(中英对照):面向领域的DeepWeb查询接口发现研究Researchonthedomain-orientedDeepWebqueryinterfacediscovery作者姓名:李振兴指导教师姓名及学位、职称:刘波教授学科、专业名称:计算机应用技术论文提交日期:2014年4月20日论文答辩日期:2014年6月8日答辩委员会主席:论文评阅人:学位授予单位和日期:独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或
2、撰写过的研究成果,也不包含为获得暨南大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解暨南大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权暨南大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:导师
3、签名:签字日期:年月日签字日期:年月日学位论文作者毕业后去向:工作单位:电话:通讯地址:邮编:暨南大学硕士学位论文面向领域的DeepWeb查询接口发现研究摘要深层网络指的是位于表层网络之下所隐藏的数据,需要用户填写表单发送查询请求才能获取,其数据量远远超过表层网络且信息价值巨大。由此原因,如何挖掘出位于深层网络中的海量数据成为了研究热点,特别是DeepWeb的信息集成研究尤为重要。DeepWeb数据集成中的第一步是Web数据库的发现,也就是查询接口的发现。但由于深层网络的数据位于众多的web数据库中,并且处于不断的变化中,相应的接
4、口也可能随之改变,增大了获取的难度。其中最为突出的技术难点是:一,Web数据库分布广泛且数量巨大,获取包含查询接口的网页信息的效率问题有待提高;二,查询接口都是以表单的形式存在,但并非所有的表单都是查询接口,如何从中正确地筛选出DeepWeb查询接口、提高分类正确性也是亟待解决的问题。围绕着DeepWeb查询接口发现中的两个难题,本文主要做了以下工作:首先,对DeepWeb进行研究,其中包括DeepWeb的概念、规模、存在方式、获得方法以及DeepWeb查询接口发现中的一些关键问题,提出本文研究的研究方向和内容。其次,对查询接口发
5、现中用到的相关技术进行分析,包括通常用的DOM解析和启发式规则研究,然后分析了查询接口发现的主要算法,并进行比较。再次,针对面向领域的DeepWeb查询接口获取的效率问题,本文提出了一种查询接口发现算法,包括基于单线程和多线程算法,并进行试验对比,结果显示基于多线程的算法效率提升显著。最后,为了从获取的网页表单中正确地筛选出DeepWeb查询接口,本文在前人研究的基础上,提出了基于启发式规则的K最近邻算法,用于从表单中正确识别出DeepWeb查询接口,为了进行实验验证,本文从多种途径多个领域取得查询接口和非查询接口,并分别进行实验
6、,实验结果表明,该算法能明显提高对DeepWeb查询接口的辨别能力,特别市在面向图书领域的实例中,在查重率和查全率方面都有明显提升。关键词:DeepWeb,查询接口,多线程,K最近邻算法I暨南大学硕士学位论文面向领域的DeepWeb查询接口发现研究AbstractThedeepwebreferstodatathatlocatedbeneaththesurfacenetwork,theamountofdataandvaluefarexceedsthesurfacenetwork.Thusthereason,howtodigdeepn
7、etworkhasbecomeahottopic,especiallytheDeepWebinformationintegrationresearchisparticularlyimportant.ThefirststepintheDeepWebdataintegrationistofindtheWebdatabase,whichisfindthequeryinterface.Someofthemostprominenttechnicaldifficultiesare:First,theefficiencyofwebaccesst
8、oinformationcontainedqueryinterfacesneedstobeimproved;Second,thequeryinterfacesareintheformoftheformexist,butnotallformsareq
此文档下载收益归作者所有