欢迎来到天天文库
浏览记录
ID:1146827
大小:416.05 KB
页数:7页
时间:2017-11-08
《多数据源冲突的主数据真值发现算法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、万方数据2014年i月计算机工程与设计JarL2014第35卷第1期COMPUTERENGINEERINGANDDESIGNV01.35No.1多数据源冲突的主数据真值发现算法王继奎1’2”,李少波h2+(1.中国科学院成都计算机应用研究所,四川成都610041;2.贵州大学现代制造技术教育部重点实验室,贵州贵阳550003;3.兰州商学院信息工程学院,甘肃兰州730020)摘要:为了解决多数据源冲突的主数据真值发现问题,基于对冲突数据值之间的支持度往往是非对称的直观认识,提出了一种非对称的数据值支持度计算算法;该算法改进了目前真值发
2、现算法中以数据值之间的相似度代替支持度的对称算法。在考虑了数据值的可信度取决于数据源权威度和数据值支持度的基础上,提出了TRFinder迭代算法,并在TRFinder算法的基础上给出了主数据生成算法。通过对典型的books—authors数据集和模拟数据进行实验,实验结果表明,TR—Finder算法比Vote算法与TruthFinder算法具有更高的准确率并保留了更多的真值信息,验证了算法的有效性。关键词:多数据源;真值发现;主数据集成;数据值支持度;数据冲突中图法分类号:TP311文献标识号:A文章编号:1000—7024(2014
3、)01—0177—06MasterdatadiscoveryalgorithmofmultiplesourceconflictWANGJi—kuil,2~,LIShao-b01’2+(1.ChengduInstituteofComputerApplications,ChineseAcademyofSciences,Chengdu610041,China;2.KeyLaboratoryofAdvancedManufacturingTechnology,MinistryofEducation,GuizhouUniversity,Guiya
4、ng550003,China;3.CollegeofInformationTechnology,LanzhouUniversityofFinanceandEconomics,Lanzhou730020,China)Abstract:InordertOfindthetruevaluesofmasterdatawithconflictingmultipledataresources,anasymmetricalgorithmcalcu—latingdatavaluesupportingdegreeisproposedbasedonthee
5、xperiencethatthesupportingdegreeofconflictingdatavaluesareusuallyasymmetric.Inconventionaltruevaluefindingalgorithms,supportingdegreesareusuallydefinedassimilaritydegreesbetweenvalues.Consideringthecredibilityofdatavaluesareoftendecidedbyauthorityofdataresourcesanditssu
6、pportingde—gree,aTRFinderiterativealgorithmisputup,aswellasamasterdatageneratingalgorithm.Afteranexperimentusingthebooks-authorsdatasetandothersimulatedata,wefindthattheTRFinderalgorithmweproposediscapableoffindingmoretruevaluesthantheVotealgorithmandthetraditionalTrust
7、Finderalgorithm,anditcanpreservemoreinformationinthemeantime.Keywo“b:multipledata.sources;truevaluefinding;masterdataintegration;datavaluesupportingdegree;dataconflict0引言数据冲突问题在数据处理领域中早就被提了出来[1],文献[2—4]在解决数据冲突问题时,往往假设数据源都是独立的,相互之间没有关联。2007年Yin[5]等人首次提出了web环境下多数据源存在依赖的情况
8、下冲突的问题,提出了数据值支持度的概念,就客观实体的单个属性如作者姓名的真值发现进行研究,提出了TruthFinder算法,该算法考虑了不同属性值之间的相互支持关系,通过不同数据值之间的支持度及数据源的准确度修正数据值的
此文档下载收益归作者所有