实体解析技术综述与展望-论文.pdf

实体解析技术综述与展望-论文.pdf

ID:53033512

大小:543.89 KB

页数:6页

时间:2020-04-14

实体解析技术综述与展望-论文.pdf_第1页
实体解析技术综述与展望-论文.pdf_第2页
实体解析技术综述与展望-论文.pdf_第3页
实体解析技术综述与展望-论文.pdf_第4页
实体解析技术综述与展望-论文.pdf_第5页
资源描述:

《实体解析技术综述与展望-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第42卷第3期计算机科学Vo1.42NO.32015年3月ComputerScienceMar2Ol5实体解析技术综述与展望朱灿曹健(上海交通大学电子信息与电气工程学院计算机系上海200240)摘要实体解析是数据清理、数据集成、数据挖掘等技术中关键的一步,是数据质量的保障。介绍了实体解析含义、背景起源以及算法基础。列举并解释了实体解析发展过程中的经典算法,包括成对实体解析、集合实体解析、大数据的实体解析、复杂数据上的实体解析等,以及它们的特点和局限性,分享了在新的应用环境下衍生出来的针对不同需求的新的实体解析算

2、法。最后展望了实体解析领域当前的研究热点以及发展方向。关键词实体解析,记录链接,集合数据,复杂数据,大数据中图法分类号TP391文献标识码ADOI10.11896/j.issn.1002~137x.2015.3.002SummaryandProspectonEntityResolutionZHUCanCA0Jian(DepartmentofComputerScience,SchoolofElectricInformationandElectricalEngineering,ShanghaiJiaoTongUni

3、versity,Shanghai200240,China)AbstractEntityResolution(ER)isakeystepindatacleaning,dataintegration,dataminingandtheinsuranceofdataquality.Thispaperlistedandexplainedsomeclassicalgorithmsinthedevelopmentofentityresolution,includingpairwiseentityresolution,coll

4、ectiveentityresolution,entityresolutiononbigdata,andentityresolutiononcomplexdataeta1.Wealsointroducedthecharacteristicsand1imitationofthesealgorithmsandsharedsomestate-of-the-artalgorithmsderivedfromnewapplicationenvironmentaccordingtodifferentrequirements.

5、Finally,theresearchhotspotsandthede—velopmentdirectionofthisfieldwerediscussed.Keywm-dsEntityresolution,Recordlinkage,Collectivedata,Complexdata,Bigdata民医疗系统、人口普查、多媒体数据库整合、银行信贷系统等1引言领域。在信息时代,数据的重要性毋庸置疑。以数据为中心的根据输入类型的不同,实体解析可分为单实体解析和多系统也得到了广泛应用,然而这些信息并非总是正确无误

6、的,实体解析。单实体解析,即指所有集合中的记录所对应的实可能存在各种错误,比如重复、不一致、不正确、不完整等。据体都是同一类型,如社会网络;多实体解析,指集合中的记录调查,全球财富1000强公司中有超过25的关键数据存在可能对应多种类型的实体,如商业销售系统中的商品、零售不正确或不准确的问题1]]。商。不同的数据提供方对同一个事物即实体(Entity)可能会根据待处理数据集的复杂程度又可将其分为简单数据实有不同的描述(这里的描述包括数据格式、表示方法等),每一体解析和复杂数据实体解析。简单数据实体解析指的是数据

7、个对实体的描述称为该实体的一个引用。实体解析,是指从结构简单,比如一般关系数据库中的元组;而典型的复杂数据一个“引用集合”中解析并映射到现实世界中的“实体”过程。实体解析则有XMI数据和图数据。这在数据清理、数据集成、数据挖掘等以数据为中心的记录中2实体解析算法基础都起着至关重要的作用,是数据质量的重要保障。实体解析(EntityResolution)又被称为记录链接(RecordLinkage)、对·数据预处理象识别(()bjectIdentification)、个体识别(IndividualIdentifi

8、—用于实体解析的数据可能来自多个数据库,而这些数据cation)、重复检测(DuplicateDetection)等。库通常不会具有统一的数据模式和表现方法,当然更不可能1946年,HelbertI.Dunn在《AmericanJournalofPublic有统一的标识符。因此需要对数据进行预处理,这个过程通Health}发表了名为《RecordLinkage}的文章,其后,Ho—wa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。