欢迎来到天天文库
浏览记录
ID:11872293
大小:1.20 MB
页数:52页
时间:2018-07-14
《数据清理关键技术及其软件平台的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据清理关键技术及其软件平台的研究与应用第一章绪论1.1引言我国目前正在大力推广信息技术,实施各行各业的信息化工程。随着信息化建设的不断深入,企事业单位积累了大量的电子数据,这些数据非常重要。为了使信息系统中的数据更准确、一致,能支持正确决策,就要求所管理的数据准确、可靠。因此,企业数据质量的管理正在获得越来越多的关注。但是,由于各种原因,如数据录入错误、不同来源数据引起的不同表示方法、数据间的不一致等,导致企业现有系统数据库中存在这样或那样的脏数据,主要表现为:不正确的字段值、重复的记录、拼写问题、不合法值、空值、不一致值、缩写词的不同,不遵循引用完整性等。根据“进去的是垃圾,
2、出来的也是垃圾(garbagein,garbageout)”这条原理,若不进行清理,这些脏数据会扭曲从数据中获得的信息,影响信息系统的运行效果,也为企业构建数据仓库、建立决策支持系统、应用商务智能带来隐患。显见,数据清理问题的重要性是不言而喻的。另外,从市场上众多的相关产品,也可以明白这一点。然而,由于数据清理本身的一些特点,比如:1)数据清理是具体应用问题,经常要具体问题具体分析,难于归纳出通用方法;2)数据清理问题的数学建模困难。因此,目前在学术界,数据清理并没有得到足够的关注,针对这方面的研究也少,有些人甚至认为数据清理是一个需要大量劳动力的过程,而且往往过于依赖特定应用领
3、域。其实不然,对于数据清理有很多内容值得研究,比如:3)在数据清理的研究中,尽管检测相似重复记录受到最多的关注,采取了许多措施,但检测效率与检测精度并不令人满意。特别是在数据量非常大时,耗时太多,有待于更好的方法。作者在文献中做了一些这方面工作,在相似重复记录检测中采用长度过滤方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了相似重复记录的检测效率;4)在数据清理的相关研究中,数据清理整体框架的研究正逐渐成为研究的热点。对此,作者在文献[7]中提出一个可扩展的数据清理软件平台,该软件平台具有开放的规则库和算法库,通过在规则库中定义清理规则以及从算法库中选择合适的清理算法
4、,可使该软件平台适用于不同的数据源,从而使其具有较强的通用性和适应性;5)目前,对数据清理的研究主要集中在结构化数据上。由于半结构化数据XML(ExtensibleMarkupLanguage,可扩展标识语言)的快速增长以及广泛应用,其在数据清理中越来越重要。为了使XML数据源中的数据更准确、一致,如何清理这些XML相似重复数据,都是值得研究的,作者在文献[8]中做了一些这方面工作;6)另外,关于数据清理在一些业务领域中的应用也是值得研究,作者在文献[9]、[10]中做了一些这方面的工作。当然,对任何现实世界中的数据源,人工完成数据清理是没有问题的。一些单位每年要花费上百万元来查
5、找数据错误,手工清理是劳累的、费时的和易出错的。对于少量数据的数据源来说,采用人工清理就可以了,但对于规模较大的数据源,手工清理是不可行的,必须借助信息技术,采用自动清理方法。当然,在自动清理的过程中,仍需要人来参与,我们要做的就是尽可能减少人的参与。总之,在信息化建设过程中,数据清理是一个非常重要,而且较新的课题,有很多东西值得我们去研究。作为全文的引言,本章主要介绍数据质量的相关概念、数据清理的原理、数据清理软件平台的意义以及本文的内容安排。1.2数据质量1.2.1数据质量概念及分类目前,数据质量问题已引起广泛的关注。什么是数据质量呢?数据质量问题并不仅仅是指数据错误。文献[
6、22]把数据质量定义为数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)这4个指标在信息系统中得到满足的程度,文献[23]则把“适合使用”作为衡量数据质量的初步标准。一般说来,评价数据质量最主要的几个指标是:1)准确性(Accuracy)准确性是指数据源中实际数据值与假定正确数据值的一致程度;2)完整性(Completeness)完整性是指数据源中需要数值的字段中无值缺失的程度;3)一致性(Consistency)一致性是指数据源中数据对一组约束的满足程度;4)唯一性(Uniqueness)
7、唯一性是指数据源中记录以及编码是否唯一;5)适时性(Timeliness)适时性是指在所要求的或指定的时间提供一个或多个数据项的程度;6)有效性(Validity)有效性是指维护的数据足够严格以满足分类准则的接受要求。当建立一个信息系统的时候,即使进行了良好的设计和规划,也不能保证在所有情况下,信息系统中数据的质量都能满足用户的要求。用户录入错误、企业合并以及企业环境随着时间的推移而改变,这些都会影响所存放数据的质量。信息系统中可能存在的数据质量问题有很多种,总结起来主要有以下几
此文档下载收益归作者所有