基于熵特征优选分组聚类的相似重复记录检测.pdf

基于熵特征优选分组聚类的相似重复记录检测.pdf

ID:51451788

大小:278.44 KB

页数:4页

时间:2020-03-25

基于熵特征优选分组聚类的相似重复记录检测.pdf_第1页
基于熵特征优选分组聚类的相似重复记录检测.pdf_第2页
基于熵特征优选分组聚类的相似重复记录检测.pdf_第3页
基于熵特征优选分组聚类的相似重复记录检测.pdf_第4页
资源描述:

《基于熵特征优选分组聚类的相似重复记录检测.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2011年第30卷第l1期传感器与微系统(TransducerandMicrosystemTechnologies)135基于熵特征优选分组聚类的相似重复记录检测张平,党选举,陈皓,杨文雷(1.桂林电子科技大学电子工程与自动化学院,广西桂林541004;2.桂林电子科技大学计算机科学与工程学院,广西桂林541004)摘要:针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法。该方法通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为不相交

2、的小数据集,在各小数据集中用DBSCAN聚类算法进行相似重复记录的检测。理论分析和实验结果表明:该方法识别精度和检测效率较高。关键词:相似重复记录;熵;特征优选分组聚类中图分类号:TP311文献标识码:A文章编号:1000—9787(2011)l1-0135-03Detection0fapproximatelyduplicatedrecordsbased0nentropyfeatureselectiongroupingclusteringZHANGPing.DANGXuan-ju,CHENHao。YANGWen.1ei(1.SchoolofEl

3、ectronicEngineeringandAutomation,GuilinUniversityofElectronicTechnology,Guilin541004,China;2.SchoolofComputerScienceandEngineering,GuilinUniversityofElectronicTechnology,Guilin541004,China)Abstract:Atpresent,theapproximatelyduplicaterecordsofmassivedatacannotbedetectedeffect

4、ivelybycurrentmethods,analgorithmbasedonentropyfeatureselectiongroupingclustering(FSGC)isproposed.Thebasicideaisthatthroughconstructinganentropymetricbasedonsimilaritybetweenobjects,theimportanceofeachpropertycanbeevaluatedandakeypropertysubsetcanbeobtained.Accordingtothekey

5、properlytosplitthedatasetsintosmalldatasets,theapproximatelyduplicatedrecordsareidentifiedbasedonthealgorithmofdensity—basedspatialofapplicationswithnoise(DBSCAN).Thetheoryanalysisandexperimentalresuhsshowthatidentificationprecisionanddetectionefficiencyofthemethodarehighand

6、itcaneffectivelysolvetheproblemsofidentificationinapproximatelyduplicaterecordsofthemassivedataset.Keywords:approximatelyduplicatedrecords;entropy;featureselectiongroupingclutering(FSGC)0引言率等技术指标上有所改善。本文提出了一种基于熵的特征大数据量的相似重复记录检测是数据清洗中的一个重优选分组聚类(FSGC)的方法,理论分析和实验结果表明:要问题。目前,国内外

7、在研究相似重复记录的检测方面已该方法在保证较高查准率的情况下,时间效率更高。经取得了一些成果。文献[1]采用“排序&合并”的方法,1基于熵的特征降维和分组方法采用固定大小的滑动窗口进行聚类来识别相似重复记录;记录属性值描述了记录的特征。对于一个大数据集来文献[2]采用了基于N—gram的层次空间的聚类算法来实说,属性组成繁杂且各属性在描述记录特征时其重要性是现相似重复检测;文献[3]提出一种基于等级分组的重复不同的,如关键属性能惟一确定一条记录,而非关键属性只记录检测方法;文献[4]根据概念依赖图计算表的关键属能在某方面对记录进行描述;同样,在

8、比较两条记录相似性性,并根据关键属性值将数据划分为记录集,在划分后的记时,也总是优先考虑其关键属性的值,然后再比较非关键属录集中进行重复记录检测。性值

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。