欢迎来到天天文库
浏览记录
ID:35132480
大小:2.83 MB
页数:50页
时间:2019-03-19
《浅谈deep web中基于聚类的模式匹配研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、广西大学硕士学位论文DeepWeb中基于聚类的模式匹配研究姓名:卢佳佳申请学位级别:硕士专业:计算机应用技术指导教师:苏一丹20080609DeepW曲中基于聚类的模式匹配研究摘要随着Intemet信息的迅速增长,整个Wreb信息已经被各种各样可搜索的在线数据库所深化,这些信息隐藏在Wreb查询接口下面,传统的搜索引擎由于技术原因不能索引这些信息,我们称之为DeepW_eb信息。DeepW曲中蕴含了海量的可供访问的信息,并且还在迅速的增长。这些信息要通过查询接口在线访问其后端的W,eb数据库。尽管丰富的信息蕴藏在DeepW曲中,由于DeepW曲数据的异构性和动态
2、性,有效地把这些信息加以利用是一件十分具有挑战性的工作。DeepWreb数据集成至今仍然是一个新兴的研究领域,其中包含有若干需要解决的问题。总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡,而且DeepW,eb离应用阶段还需较长的时间,大量关键的问题需要深入细致的研究。本文介绍了De印Wreb概念、规模、De印w_eb产生的原因以及Deepw,eb信息集成系统的基本框架。对DeepW.eb中的关键技术——模式匹配进行了重点的研究,通过对目前基于聚类的模式匹配方法进行分析和比较,发现这些基于聚类的模式匹配方法不能实现m:疗映射关系,针对这些问题提
3、出了一种新颖的基于聚类的复杂模式匹配算法(CSM),根据成组属性和同义属性的定义,提出了成组属性和同义属性的判断方法,并在聚类过程中,根据属性间相似度的加权平均值和属性间距离加权平均值成反比的关系,给出一种计算聚类中心点的方法;聚类后,不仅能够发现l:1模式匹配,还能发现所:刀复杂模式匹配;采用重采样方法的聚类验证,说明该聚类方法T能够得到较优的聚类结果,证明了方法的有效性和实用性。实验结果表明,该方法能从整体上匹配出成组属性和同义属性,有效的发现聊:刀匹配,并具有较高的准确率和查全率。关键词:聚类分析DeepWeb模式匹配重采样聚类验证ⅡRESEARCHOFC
4、LUSTEIUNG.BASEDSCHEMAMATCHINGMETHoDSONDEEPWEBABSTRACTAstheamountofinformationontheWebincreasesrapidly’theWebhasbeenrapidlydeepenedbymyriadsearchabledatabasesonline,wheredataarehiddenbehindqueryinterfaces.1’radtionalcrawlerdoesnotindextheinf.0rmation.Theinforma“oncanonlybeaccessedbyth
5、eque眄interfacespr0VidedbyWebdatabase.ThedatainDeepWebareobtainedintheformofdynamicWebpageswhenuserssendaqueI了.DuetothepoorstructuI‘eofWebpagesandtheinstabi¨够andlargescaIeofDeepWeb,itisaVeI。ycha¨engingtasktointegratetheabundantinf.orma“onautoma“ca¨yanduseite蕾fectiVely.Untilnow,DeepWeb
6、dataintegrationhasstiUbeenarisingresearchfield,andtheI’eareanumberofcha¨engingissuesinit.AgreatdealofresearchworksaredeVelopedinthis6eId,butitisimbalancedontheissuesofthis6eld.Furthermo代,itwmbealongtilneforDeepW曲applicationandlargenumbersofproblemneedtobedeeplystudyjInthispaperweintr
7、oducetheconceptandthesizeoftheDeepweb、theappearancecauseofDeepWebandtheframeoftheinformationintegrationsystemofDeepWeb.WeemphasizeonthestudyofschemamatchingwhichisthekeytechnologyofDeep、Ⅳeb.WeanalyzetheⅢclustering。basedschemamatchingmethodswhicharepresentedand6ndthatthesemethodshaVes
8、omeproblems.
此文档下载收益归作者所有