多数据源冲突的主数据真值发现算法

多数据源冲突的主数据真值发现算法

ID:1146827

大小:416.05 KB

页数:7页

时间:2017-11-08

多数据源冲突的主数据真值发现算法_第1页
多数据源冲突的主数据真值发现算法_第2页
多数据源冲突的主数据真值发现算法_第3页
多数据源冲突的主数据真值发现算法_第4页
多数据源冲突的主数据真值发现算法_第5页
资源描述:

《多数据源冲突的主数据真值发现算法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、万方数据2014年i月计算机工程与设计JarL2014第35卷第1期COMPUTERENGINEERINGANDDESIGNV01.35No.1多数据源冲突的主数据真值发现算法王继奎1’2”,李少波h2+(1.中国科学院成都计算机应用研究所,四川成都610041;2.贵州大学现代制造技术教育部重点实验室,贵州贵阳550003;3.兰州商学院信息工程学院,甘肃兰州730020)摘要:为了解决多数据源冲突的主数据真值发现问题,基于对冲突数据值之间的支持度往往是非对称的直观认识,提出了一种非对称的数据值支持度计算算法;该算法改进了目前真值发

2、现算法中以数据值之间的相似度代替支持度的对称算法。在考虑了数据值的可信度取决于数据源权威度和数据值支持度的基础上,提出了TRFinder迭代算法,并在TRFinder算法的基础上给出了主数据生成算法。通过对典型的books—authors数据集和模拟数据进行实验,实验结果表明,TR—Finder算法比Vote算法与TruthFinder算法具有更高的准确率并保留了更多的真值信息,验证了算法的有效性。关键词:多数据源;真值发现;主数据集成;数据值支持度;数据冲突中图法分类号:TP311文献标识号:A文章编号:1000—7024(2014

3、)01—0177—06MasterdatadiscoveryalgorithmofmultiplesourceconflictWANGJi—kuil,2~,LIShao-b01’2+(1.ChengduInstituteofComputerApplications,ChineseAcademyofSciences,Chengdu610041,China;2.KeyLaboratoryofAdvancedManufacturingTechnology,MinistryofEducation,GuizhouUniversity,Guiya

4、ng550003,China;3.CollegeofInformationTechnology,LanzhouUniversityofFinanceandEconomics,Lanzhou730020,China)Abstract:InordertOfindthetruevaluesofmasterdatawithconflictingmultipledataresources,anasymmetricalgorithmcalcu—latingdatavaluesupportingdegreeisproposedbasedonthee

5、xperiencethatthesupportingdegreeofconflictingdatavaluesareusuallyasymmetric.Inconventionaltruevaluefindingalgorithms,supportingdegreesareusuallydefinedassimilaritydegreesbetweenvalues.Consideringthecredibilityofdatavaluesareoftendecidedbyauthorityofdataresourcesanditssu

6、pportingde—gree,aTRFinderiterativealgorithmisputup,aswellasamasterdatageneratingalgorithm.Afteranexperimentusingthebooks-authorsdatasetandothersimulatedata,wefindthattheTRFinderalgorithmweproposediscapableoffindingmoretruevaluesthantheVotealgorithmandthetraditionalTrust

7、Finderalgorithm,anditcanpreservemoreinformationinthemeantime.Keywo“b:multipledata.sources;truevaluefinding;masterdataintegration;datavaluesupportingdegree;dataconflict0引言数据冲突问题在数据处理领域中早就被提了出来[1],文献[2—4]在解决数据冲突问题时,往往假设数据源都是独立的,相互之间没有关联。2007年Yin[5]等人首次提出了web环境下多数据源存在依赖的情况

8、下冲突的问题,提出了数据值支持度的概念,就客观实体的单个属性如作者姓名的真值发现进行研究,提出了TruthFinder算法,该算法考虑了不同属性值之间的相互支持关系,通过不同数据值之间的支持度及数据源的准确度修正数据值的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。