基于web+service信息集成系统的数据清洗分析

基于web+service信息集成系统的数据清洗分析

ID:32057125

大小:1.46 MB

页数:51页

时间:2019-01-31

基于web+service信息集成系统的数据清洗分析_第1页
基于web+service信息集成系统的数据清洗分析_第2页
基于web+service信息集成系统的数据清洗分析_第3页
基于web+service信息集成系统的数据清洗分析_第4页
基于web+service信息集成系统的数据清洗分析_第5页
资源描述:

《基于web+service信息集成系统的数据清洗分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第一章绪论1.1研究背景随着计算机及网络技术的快速发展,网络上的信息迅猛增加,成为一个巨大的信息库,同时各企业单位开发了大量的软硬件平台各异的应用系统,在各种应用系统下又积累了丰富的数据资源。这样就形成了成千上万个异构的数据源,有传统的数据库、文件系统,以及HⅢ删L等半结构化的数据,还有图片、声音和其它多媒体信息等非结构化的数据。这些数据资源由于软硬件平台各异、数据模型各异而形成了异构数据,使各数据源间的互操作变得复杂、困难,导致它们成为信息孤岛。为了更好地利用网络上浩如烟海的信息,并且避免造成企业应用系统的重复建设和数据资源的浪费,人们迫切需要集

2、成这些地理上分散、管理上自治、模式上异构的异构数据源,因此集成问题吸引了众多关注。如何在异构数据环境中集成、访问这些数据呢?首要的问题是研究异构数据之间的集成问题,只有将这些孤立的数据集成起来,并且提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西,这就是数据集成技术。数据集成的目的是在数据源逻辑层上建立统一的访问界面,实现异构数据的分布式共享,使用户不必考虑数据模型的异构性、数据抽取和数据合成等问题,用户只需指定他们想要的数据,而不必描述怎样得到数据。这样就减轻了用户寻找相关数据源、以及与每个数据源交互返回结果的负担。由于数据源是

3、分散且动态变化的,所以数据集成系统对灵活性和可扩展性的要求比较高。wcbS哪ice技术使得基于它的应用具有松散耦合的、面向构件的和跨技术的实现的特点,正好能够解决数据源动态变化和分散程度高的问题,因此,本文提出基于webService的信息集成系统(ws一Ⅱs:webSenrice-basedhlformati∞Inte粤_ationSystcIll)。数据质量是评价一个信息集成系统的优劣的关键因素。数据的价值在于其质量,基于劣质数据的决策是不可信的。数据使用者的运用质量与数据质量直接相关。但是面对数量如此巨大而零乱的数据人工处理是非常困难的,数据

4、质量问题成为制约数据应用的“瓶颈”之一。纠正数据错误是避免错误决策、降低决策风险的重要环节,数据清洗就是用来完成这项艰巨任务的。本文主要解决基于websenrice的信息集成系统中的数据清洗问题。2wsB-IIs系统的数据清洗研究1.2数据清洗技术研究现状尽管目前信息集成、数据仓库、KDD(KnowledgeDiscove口inDatab鹪es)、客户关系管理等在理论和应用上都获得了极大的发展,但数据清洗作为其重要的、必不可少的组成部分,直接针对这方面的研究并不多,国内外有关数据清洗技术的研究现状概述如下:1.2.1国外研究现状国外对数据清洗技术的

5、研究,最早出现在美国,是从纠正全美错误的社会保险号开始的【“。美国信息业和商业的发展,刺激了对这方面技术的研究。研究内容主要涉及:(1)对数据集进行异常检测(是指对数据集记录属性的清洗)。主要有下列方法f2】:采用统计学的方法来检测数值型属性、计算字段值的均值和标准差、考虑每一个字段的置信区间来识别异常字段和记录。另外还可以把人工智能的方法引入到数据清洗中,主要有:1)采用基于距离的聚类的方法来识别异常的记录。21采用基于模式的方法来发现不符合数据集中现存模式的异常记录。3)采用关联规则的方法来发现数据集中不符合具有高置信度和支持度的规则的异常数据

6、。这种方案对值为字符型的属性利用了属性间的约束关系、模式识别等技术,难度较大。属性清洗可以针对具体问题具体分析,也可针对某类问题提供解决方案。如果清洗方案能自动发掘规则,则属于自适应性属性清洗,实现难度非常大,这种方案较少见。(2)识别并消除数据集中的近似重复对象,也就是重复记录的清洗【13朋。它在数据仓库环境下特别重要,因为在集成不同的系统时会产生大量的重复记录。消除数据集中的近似重复的记录问题是目前数据清洗领域研究的最多的内容。为了从数据集中消除重复记录,首要的问题就是如何判断两条记录是否是近似重复。其核心问题是如何判断字段的匹配问题,目前常用

7、的算法有:递归式字段匹配算法、Smith-W砷锄锄算法和R-S.w算法。数据集级识别重复记录的经典方法是基本近邻排序方法。针对这种算法的缺陷,研究者提出了各种改进的算法,主要包括多趟近邻排序方法,优先权队列清洗策略等。针对召回率、精确度两难问题提出了一个基于知识管理的智能型数据清洗系统的框架,该框架采用专家系统,用规则来表示领域知识,实现了知识的高效表示和灵活管理。通过指定有效的规则,并且在传递闭包的计算过程中引入不确定因子,在一定程度上解决了召回率、精确度两难问题。(3)在数据仓库应用中,数据清洗必须考虑数据集成,即将数据源中的结构和数据映射到目

8、标结构与域中。在这方面已做了大量的研究工作。第一章绪论(4)不少数据清洗方案和算法都是针对特定应用问题的,只适用于较小的范

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。