一种相似重复记录检测算法的改进研究

ID：40713570

大小：349.65 KB

页数：4页

时间：2019-08-06

资源描述：

《一种相似重复记录检测算法的改进研究》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、第20卷第．7期计算机技术与发展Vo1．20N。．72010年．7月COMPLYTERTECHNOI~1GYANDDEVELOPMENTju1．20l0一种相似重复记录检测算法的改进研究戴颖，李兴国，赵启飞(合肥工业大学管理学院，安徽合肥230009)摘要：相似重复记录检测是数据清洗领域中的一个重要方面。文中研究了在数据模式与匹配规则不变的前提下，数据集动态增加时近似重复记录的识别问题，针对基于聚类数算法精度不高、效率低下等问题提出一种改进算法。该算法运用等级法给属性赋予相应权重并约减属性，通过构造聚类树对相似记录进行聚类，增设了一个阈值以

2、减少不必要的相似度比较次数，提高了算法的效率和准确率。最后通过实验证明了该算法的有效性，并提出了进一步的研究方向。关键词：相似重复记录；增量式；聚类树；等级法中图分类号：TP311．5文献标识码：A文章编号：1673—629X(2010)07—0013—04ImprovedMethodforDetectingIncrementalApproximatelyDuplicateRecordsDAIYing，LIXing—guo，ZHAOQi—fei(SchoolofManagement，HefeiUnivemityofTechnology，He

3、fei230009，China)Abstract：Cleaningapproximatelyduplicater~rdsisanimportealttaskindataclemaing．ProblemsofdetectingapproximatelyduplicaterecordswhenthedatasetisdynamicallyincreasedOI1theassumptionofstabledatamodelandmatchingmlesarestudied．AnimprovedmethodisproposedtOdealwithp

4、roblemsinthemethodbasedonclusteringtree．Thepmpc~methodappointsproperweighttOeachfieldoftherecordandreduc~attributesthroughusingranked—basedweightsmethod；clustemduplicaterecordsbycreatingaclusteringtree．Toimprovetheefficiencyofthismethod，alimenisaddedintothearithmetic．Final

5、ly，thevalidityofthismethodisprovedbyex．pefimentandfurtherresearchdirectionsareproposed．Keywords：approximatelyduplicaterecord；incremental；clusteringtree；ranked—t~sedmethodO引言录检测，最后综合多次计算的结果。文献[4]提出了优数据库中的相似重复记录，是指那些客观上表示先队列方法，将优先队列的思想运用于相似重复记录现实世界同一实体，但由于在格式和拼写上有差异而检测中。文献[5

6、]采用等级法为记录各字段指定合适导致数据库管理系统不能正确识别的记录Llj。这类数的权重，从而提高了相似重复记录的检测精度。据产生的主要原因是数据仓库中数据的来源不单一。现有的大多数近似重复记录识别算法均以一个静它们不仅占用了数据仓库的空间，还降低了数据处理态数据集为前提。如果系统接收到一个新的同构数据结果的正确性，因此对相似重复数据的清洗变得尤为集，须将其与已处理的数据集进行合并，再对合并后的重要。整个数据集进行处理，大部分时间都浪费在已处理过现在对相似重复记录检测的研究很多。文献[2]的数据集的重复计算上。如果数据模式和用于匹配记提出了

7、邻近排序法，先使用某个设定的键值对整个数录的规则不变，仅需观察最近到达的增量数据，这是增据表进行排序，然后再对小范围的邻近记录进行检测量式重复记录识别处理的核心。文献[6]提出了一种找出相似重复记录。文献[3]提出了多趟邻近排序法，基于优先队列的增量式重复记录识别算法，用优先队在多个键上对数据表进行排序并进行小范围的邻近记列算法对数据集进行聚类，提取每个聚类的特征记录组成特征记录集，将特征记录集与新进人的数据集拼收稿日期：2009一】0—23；修回日期：2010—02—23接，再使用优先队列算法对之处理，如此循环。该方法基金项目：国家自然科

8、学基金项目(70871033)能够处理增量式的数据集，但效率和精度都不高。文作者简介：戴颖(1985一)，女，江苏扬中人，硕士研究生，研究方向为数据清洗、项目管理；李兴国，教授，

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

一种相似重复记录检测算法的改进研究

一种相似重复记录检测算法的改进研究

相关文章

相关标签