欢迎来到天天文库
浏览记录
ID:32016947
大小:2.84 MB
页数:80页
时间:2019-01-30
《deep+web数据源发现和选择的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、’,,IL‘、/{‘’:{。钳麓留}擘AThesisfortheDegreeofMasterinComputerApplicationTechnologyStudyonDataSourcesDiscoveryandSelectiononDeep腑bbyLiMeifangSupervisor:ProfessorShenDerongNortheasternUniversityJanuary2008■£-●■■■●■I、,、群d冬翻缨1●J】1■J●《,?{I独创性声明本人声明所呈交的学位论文是在导师的指导
2、下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示诚挚的谢意。学位论文作者签名:翻来茑签字El期:+砌孑.2.切学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库
3、进行检索、交流。(如作者和导师同意网上交流,请在下方签名:否则视为不同意)学位论文作者签名:棚导师签名:讨哆荨签字Et期:加谚I工,2,0签字Et期:刃矽占、z.如tHiⅣ0●J,r、jl_‘J,‘1J■■■IlIl■●o磊蔓'、东北大学硕士学位论文摘要DeepWeb数据源发现和选择研究摘要随着Intemet信息的迅速增长,DeepWeb数据资源的数量急剧增加。然而,这些数据信息只能通过动态查询响应来获取,不容易被传统的搜索引擎如Google、百度搜索到,因此并未得到充分的利用。因此,探索和研究支持D
4、eepW曲查询搜索引擎从而满足实际用户的广泛需求,成为信息领域研究的重点。由于DeepW
5、eb的自身特点,实现其数据资源集成在技术上存在很大难度。为了发现和集成这些DeepWeb资源,本文首先分析了DeepWeb国内外研究现状,提出了DeepWeb数据集成系统框架,分析了其主要的四种机制:知识库构建机制、查询处理机制、查询转换机制和结果集成机制,并阐述了DeepWeb集成的难点。其次,本文阐述了DeepWeb爬虫框架,通过分析接121类型和表单处理机制,包括表单解析、表单特征提取、表单模式匹配和表单聚
6、类和分类,结合数据源接口发现四层模型,提出了基于领域的表单爬虫框架DeepRunner,提出基于领域的DeepWeb数据源发现算法DOER来获取领域数据源。本文从理论上阐述DeepWeb的属性分布和问题描述,分析了Top.k查询技术和主流算法,结合Top.k算法的优点,提出了基于属性支配模式增长算法的Top-k数据源选择策略,并且结合属性间共现度特征,进一步改进算法,提高了算法执行的查准率和查全率,从而提高了用户查询服务的质量。最后,本文阐述DeepWeb查询转换和查询结果集成机制。实验表明,本文的D
7、eepRunner框架可以获取DeepWeb领域数据源,验证了其可行性;通过大量的实验数据,本文验证了基于领域的数据源发现算法DOER的优越性,也证明了基于属性支配模式增长算法的Top.k数据源选择算法及其改进算法的有效性,尤其在大规模数据集成中,这两种算法效率显著高于传统的Top.k数据源选择策略。关键词:DeepWeb,领域,数据源发现,数据源选择,Top-k,属性支配模式增长算法,共现-II-洒{d一:1●—■■■■—●I、童I‘东北大学硕士学位论文AbstractStudyonDataSour
8、cesDiscoveryandSelectiononDeepWebAbstractAstheincreasinglydevelopmentofIntemet,theamountofdatasourcesonDeepWebisrapidlygrowing.However,thesedatasourcescanonlybeacquiredbydynamicqueryresponses.Hardlycantheybeindexedandsearchedbytraditionalsearchenginesuc
9、hasGoogleandBaidu,andthustheyarenotfullyutilized.Therefore,exploringandstudyonDeepWebquerysearchenginetosatisfythewidedemandsofusershavebecometheprimaryfocusofinformationresearch.However,forthefeaturesofDeepWeb,itisverydifficultt
此文档下载收益归作者所有