欢迎来到天天文库
浏览记录
ID:12830308
大小:19.03 MB
页数:56页
时间:2018-07-19
《大数据的可视化——知识讲义》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第五章大数据的可视化浙江大学陈为大数据来自于人类活动,其最终服务对象也是人类。大数据存在于信息空间,而处理大数据的基本工具是带有机器智能的计算机。因此,在人类使用以计算机为代表的硬件设备获取、存储、传输、理解、分析和应用大数据时,需要一种信息交流的通道,以便快速、有效、准确地理解和驾驭这个过程。这种信息交流通道的最主要形式,就是可视化[Spence2007]。可视化是一门利用人眼的感知能力和人脑智能对数据进行交互的可视表达以增强认知的学科[Munzner2014]。它将不可见或难以直接显示的数据映射为可感知的图形
2、、符号、颜色、纹理等,增强数据识别效率,高效传递有用信息[Hansen2004]。它的起源、发展和演变与人类文明的进展息息相关。在计算机发明之前,科学家观测物理现象时采用绘画的方式记录物理现象[Tufte1992];测绘学家采用地图标记空间方位和属性;统计学家采用图表理解统计采样数据[Wilkinson2005]。进入计算机时代,科学和工程中产生的大量科学数据,催生了科学可视化;而网络、信息传播和社交网络的兴起,将信息可视化推向前沿。大数据时代的来临,加强了可视化的重要性。数据可视化和可视分析作为一个新兴的研究领
3、域,受到越来越广泛的关注。早在麦肯锡2011年发布的一个报告中[McKinsey2011],可视化就被列为数据科学的关键技术之一。美国科学院2014年发布的一本关于大数据分析前沿的调研报告[Korte2014]中,可视化被认为是一种混合式人机融合的数据分析技术,“不仅帮助人类理解分析的输出,还提供用户修改数据分析模型的手段”。从学科定义的角度看,可视化指综合运用计算机图形学、图像、人机交互等技术,将采集或模拟的数据变换为可识别的图形、图像、视频或动画,并允许用户对数据进行交互分析的理论、方法和技术[Ward201
4、0]。可视化的高级版本,即可视分析,则是将自动化的分析技术和交互式可视化技术结合,在大规模复杂数据集上以有效理解、推理和决策为目标的科学、技术和学科[陈为2013B]。本章从可视化基础、可视化及可视分析在大数据背景下的关键挑战和解决方案、大数据可视化的应用等多个角度,描绘大数据可视化的基本概念与研发前景。5.1可视化基础5.1.1可视化释义可视化的作用体现在多个方面,如揭示想法和关系、形成论点或意见、观察事物演化的趋势、总结或积聚数据、存档和汇整、寻求真相和真理、传播知识和探索性数据分析等[Card1999]。从
5、宏观的角度看,可视化的三个功能包括[陈为2013A]:l信息记录传统的信息记录采用文字或口传等方式,而可视化符号可形象而直观地记载复杂的概念和事物,且能扩充人脑内存,激发智力和洞察力,帮助验证科学假设。如果说计算机图形学是为自然景象拍照,数据可视化则是数据的摄像师。例如,DNA分子结构的发现,直接受益于对DNA结构的X射线衍射照片的分析。图1展示了海洋洋流向量场的纹理可视化结果。l信息推理和分析数据分析的任务包括定位、识别、区分、分类、聚类、分布、排列、比较、内外连接比较、关联、关系等。可视化提供直观的信息感知机
6、制,帮助人脑形象地理解和分析所面临的任务,降低数据理解的复杂度,突破常规统计分析方法的局限性。例如,英国医生JohnSnow将霍乱病例发生的地址和取水的关系映射到地图(图2)[Tufte1997],发现了霍乱的根源。图1美国宇航局利用向量场可视化技术绘制了2005年6月至2007年底的地球表层洋流图,模仿了荷兰后印象派画家梵高1889年时创作的名画《星空》。图片来源:http://www.nasa.org.l信息传播与协同视觉感知是人类最主要的信息通道,它输入了人从外界获取的70%以上的信息。俗语称“百闻不如一见
7、”、“一图胜千言”。将复杂信息传播与发布的最有效途径是将数据进行可视化。例如,法国人CharlesJosephMinard制作的1812到1813年拿破仑进军莫斯科大败而归的历史事件的可视化作品(图3)[Tufte2006]直观地呈现了军队的位置和方向、军队汇聚、分散和重聚的地点与时间、军队减员的过程、撤退时低温造成的减员等信息。数据可视化将不可见现象变成可见的图形符号,并从中发现规律和获取知识。可视化的终极目标是对事物实质的洞悉,而非可视化结果图像本身,这包含多重含义:发现、决策、解释、分析、探索和学习[War
8、d2010]。针对复杂和大尺度的数据,已有的统计分析或数据挖掘方法往往是对数据的简化和抽象,隐藏了数据集真实的结构。可视化可还原乃至增强数据中的全局结构和具体细节。衡量可视化的标准有三个方面:l真,即真实性,指是否正确地反映了数据的本质,以及对所反映的事物和规律有无正确的感受和认识。l善,即倾向性,也就是可视化所表达的意象对于社会和生活具有什么意义和影响。l美,即可视化的
此文档下载收益归作者所有