基于对象树相似匹配的xml重复对象检测

基于对象树相似匹配的xml重复对象检测

ID:5265741

大小:302.58 KB

页数:6页

时间:2017-12-07

基于对象树相似匹配的xml重复对象检测_第1页
基于对象树相似匹配的xml重复对象检测_第2页
基于对象树相似匹配的xml重复对象检测_第3页
基于对象树相似匹配的xml重复对象检测_第4页
基于对象树相似匹配的xml重复对象检测_第5页
资源描述:

《基于对象树相似匹配的xml重复对象检测》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、计算机科学2006V01.33No.11(增刊)基于对象树相似匹配的XML重复对象检测DuplicatesDetectioninXMLBasedonObjectTreeSimilarlyMatch王天亮陈剐徐宏炳(东南大学计算桃科学与工程系南京210096)AbstractDuplicatesdetectionisaveryimportantp∞ccssofdataintegrationandisthemaintaskofdatacleaning.Whileresearchaboundaintherealmofduplicatedatectinninrelationaldata,the

2、reisyetlittleworkfOrduplicatesinother,laorecomplexdatamodels,such∞XMLInthispaper,wepresent8modddetectingtheduplicatesinxMLdata,whichconsistsofcandidatedefinitinn}objectextraction,obiecttreeconstruction,duplicatesdetectionanddu-plicatesclustering.Duplicatedetectionisbasedoilsimilarmatchingofobjee

3、ttree.Atlast,someoptimizationmea.s-llre:sforthismoddIil.

4、eproposecLKeywm-dsDamcleansing,Entity,Objecttl'P.e.Duplicatesdetection1引言数据集成就是把来自异构分布数据源的数据整合起来。因为相同对象在不同的数据源中可能会有不同的表示方法,即存在重复记录,所以数据集成理想的结果是相同的对象有唯一完整正确的表示。数据清洗是数据集成中一个重要的环节,是实现理想的数据集成结果的重要方法,其主要任务是清除来自不同数据源中的重复记录,保证一个对象在结果集中只有唯一的一个表示。这

5、个问题已经在关系型数据库中得到了广泛的研究。但是在今天,关系型的数据只是数据表示形式的一个很小的部分。而Ⅺ以L数据应用的越来越广泛,尤其是在数据发布和数据交互以及数据集成,数据挖掘等领域。与关系型数据相比,XML数据是一种层状的,半结构化数据,远比传统的关系型数据要复杂。具有咀下特点:1.XML元素即XML对象有自己的作用域。一个XML对象可以嵌套在另一个对象里面,所以此对象的作用域被限制在其父对象内。在进行数据清洗时必须考虑这一点。例如:(country)France

6、/country)虽然两个城市都叫Paris,但是它们两个却是不同的城市,一个在法国,一个在美国。·】62-2.在关系型数据库中,每一条记录代表一个对象,每个字段为一个对象的属性。而在XML中,对象是一种树状结构,一个元素是描述一个对象的属性还是一个相关的对象是由实际应用决定的。例如:(country)France(city)

7、据的一个重要区别。在XML数据中,相同类型的对象可以有不同的结构。这些结构上的差别是由于相同类型的对象的不同表示或者schema上的差异造成的。所以传统关系数据库中的重复对象检测方法并不完全适用于XML数据。因此有必要提出一种适用于XIVIL重复对象检测的方法。本文的主要贡献为:1.提出了一种基于对象树相似匹配的XML重复对象的检测模型,它很好地解决了由于XML对象的以上特点给对象重复检测带来的问题。2.提出了一种基于对象树相似匹配的重复对象判定方法。3.XML重复对象的检测是与对象领域无关的。2相关工作基于树的相似匹配的算法来进行重复对象的检测·数据清洗是提高数据质量的一个很重要的措

8、施。但是在诸如XML半结构化数据的清洗方面,研究得比较少。在这方面的研究中,DELPHI[Ⅲ是一个检测数据仓库中层状数据重复对象的方法。与XML数据相比,数据仓库中的层状数据有清晰的结构定义,所以它不适合XML数据的清洗。在文[1]中提出了一种基于字符串相似匹配重复对象检测方法,但没有充分考虑XML对象结构的不确定和多样性,所以在检测准确性上还欠缺。Dogmatic/21是一个XML重复对象检测的通用框架,充分考虑了XML数据的特点。但是,其关

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。