欢迎来到天天文库
浏览记录
ID:47238276
大小:53.09 KB
页数:7页
时间:2019-08-03
《浅谈大数据时代下数据质量的重要性及提高数据质量的方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据即未来——浅谈大数据时代下数据质量的重要性及提高数据质量的方法学院:专业:姓名:学号:指导老师:联系方式:数据即未来——浅谈大数据时代下数据质量的重要性及提高数据质量的方法摘要:数据是联系现实世界和虚拟模型重要的桥梁,也是我们探索和预测世界的重要指标。几十年以来,人们都在强调数据质量中正确性的重要性,但是当我们身处大数据时代,数据由仓库变成了海洋,数据质量的含义发生了什么变化?相对应的提高数据质量的方法或手段又有了哪些改变?本文首先解释了传统数据质量的定义,然后给出了大数据时代下数据质量的新定义。同时简要的介绍了传统数据
2、质量提高手段和大数据时代下新的数据质量的提高手段。1.数据质量的定义数据质量在不同的时期有着不同的定义。在几十年前,数据质量就是意味着数据的准确性。确切的说是数据的一致性、正确性、完整性和最小性这4个指标在信息系统中得到的满足程度[1]。国内学者陈远等认为[2]数据质量可以用正确性、准确性、不矛盾性、一致性、完整性和集成性来描述。但是随着信息系统的发展,数据的来源越来越多样化,数据体量越来越大,数据涵盖的面也越来越广,对于数据质量的定义也从狭义走向了广义。准确性不再是衡量数据质量的唯一标准,当数据量增大,数据格式多样,数据适
3、合使用的程度成为了数据质量中更加关键的因素[3]。虽然众多的学者对于数据质量的定义不同,但是在大体上都涵盖了以上的指标。笔者认为在大数据时代下,衡量数据质量的指标中,数据的可读性应该放在首位。在大数据时代背景下,我们不缺少分析大数据的方法,也不缺少分布式计算的硬件,准确性对于大数据而言,单个或少部分不准确的数据在庞大的数据量面前的影响也微乎其微。现今的目标更多追求的是数据分析的效率,所以数据质量中数据的可读性便成为了影响数据质量极其重要的一环。对于格式化和非格式化数据,其不仅仅在存储空间占用大小上,相差甚远,更多消耗的是对于
4、非格式化数据的读取、分析的时间。数据的可读性差,不仅仅造成数据分析时间长,更重要的是在当今庞大的信息系统下,难以满足各个子系统海量数据交互的需求。所以在当今大数据时代的背景下,我们在注重传统的数据质量的指标的同时,更加应该注意数据的可读性。2.数据质量的重要性对于传统的数据质量的定义,如准确性、完整性等,人们认识世界都是通过建立虚拟模型,如定理、公式、法则等,通过采集现实世界数据输入至虚拟模型中,进行预测,之后再与现实世界采集数据对比,不断改进模型,从而达到预测及认识世界的目的。如图1-1所示,在这个过程中,数据是连接现实世
5、界和虚拟世界的桥梁,如果数据质量出现问题,无法真实的反映现实世界的状况,那么建立起来的虚拟模型就会出现较大的偏差,从而预测出有偏差甚至完全相反的结果,这便是在计算机和数学中广为人知的“垃圾进,垃圾出(garbagein,garbageout)”。如果是一个企业对于未来市场的判断,那么这种后果将是及其严重的,传统数据质量的重要性不言而喻。图1-1但是在大数据时代下,数据量得到了爆炸式的增长,数据的准确性由于量变而轻易实现,人们更加关心数据分析的效率及数据在各个子系统中周转的速度,数据的可读性便成为了数据质量指标中至关重要的一环
6、。无论是在过去还是现在以及未来,可以预见的是无论数据质量的衡量指标改变了多少,数据质量永远是人们锲而不舍追求的目标。3.提高数据质量的手段3.1传统手段针对传统数据质量的定义,在不同的信息系统中提高数据质量所采取的方法是特定的,但是在大体上提高数据质量的手段主要在数据获取、数据清洗等阶段。在数据获取阶段,所针对的目标主要是为了提高数据的一致性、完整性及正确性,所采取的手段主要针对硬件设备,如:采取更加先进的传感器、传感器布置更加全面、提高传感器数量等。此阶段对于数据质量的提高主要体现在收集的数据量的增加上,这么做的原因是防止
7、因数据量过少而产生的偶然结果对数据分析产生不利的影响。在数据清洗阶段,所针对的目标主要是为了提高数据的最小性和正确性。由于在数据获取阶段,为了保证数据完整性而过多地收集数据,使得数据量增加,影响数据分析效率,所以在数据清洗阶段,提高数据质量的方法主要是针对数据分析所需要的相应的指标,去除无关指标及空值、残缺值等。同时可以利用专家知识或相应的公式、经验、法则等,制定特定的识别模块(如工程APP)[4],达到自动化去除数据中的错值,进一步提高数据质量,减少对数据分析的不利影响。3.2现代手段与传统手段不同,当今的时代对于数据质量
8、的定义发生了变化,所以提高数据质量的方法也发生了变化。在数据获取上,不仅仅增加了数据获取的数量和粒度,更多的是增加了数据获取的维度,如从时域上获取数据的同时也从空域上获取数据,不仅仅有雷达获取的数据,也有卫星获取的数据。在数据清洗上,更加注重数据的最小性,针对特定的分析目的给予特定的数据序
此文档下载收益归作者所有