大数据可视化分析

大数据可视化分析

ID:25252270

大小:64.00 KB

页数:11页

时间:2018-11-19

大数据可视化分析_第1页
大数据可视化分析_第2页
大数据可视化分析_第3页
大数据可视化分析_第4页
大数据可视化分析_第5页
资源描述:

《大数据可视化分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、大数据可视化分析陈明(中国石油大学计算机科学与技术系,北京102249)摘?要:人类利用形象思维获取视觉符号中所蕴含的信息并发现规律,进而获得科学发现。文章介绍科学可视化、信息可视化和数据可视化的内涵,阐述大数据可视化分析方法。.jyqkail protected]。0引言人类的创造性不仅取决于逻辑思维,还与形象思维密切相关。人类利用形象思维将数据映射为形象视觉符号,从中发现规律,进而获得科学发现。期间,可视化关键技术对重大科学发现起到重要作用。在大数据时代,大数据可视化分析的研究与发展将为科学新发现创造新的手段和条件[1]。数据可视化于20世纪50年代出现,典型例子是利

2、用计算机创造出了图形图表。1987年,布鲁斯·麦考梅克等撰写的《VisualizationinScientificputing》促进了可视化技术的发展,将科学计算中的可视化称之为科学可视化[2]。20世纪90年代初期,出现了信息可视化。目前将科学可视化与信息可视化都归为数据可视化。2科学可视化2.1问题的提出传统的科学可视化技术已成功应用于各学科领域,但如果将其直接应用于大数据,将面临实用性和有效性问题,这说明需要对科学可视化技术重新审视与深入研究。2.2分布式并行可视化算法可扩展性是构造分布式并行算法的一项重要指标。传统的科学可视化算法应用在小规模的计算机集群中,最多可以包括几百

3、个计算节点,而实际应用是要在数千甚至上万个计算节点上运行。随着数据规模的逐渐增大,算法的效率逐渐成为数据分析流程的瓶颈,设计新的分布并行可视化算法已经成为一个研究热点。2.2.1并行图像合成算法传统的并行图像合成算法主要包括前分割算法、中间分割算法和后分割算法3种类型,前分割算法主要分为如下3步骤:(1)将数据分割并分配到每个计算节点上;(2)每个计算节点独立绘制分配到的数据,在这一步,节点之间不需要数据交换;(3)将计算节点各自绘制的图形汇总,合成最终的完整图形。从上述步骤中可以看出,由于节点之间可能需要大量的数据交换,尤其是步骤(3)可能成为算法的瓶颈。解决这个问题的关键是减少

4、计算节点之间的通信开销,可以通过对数据进行划分并在各计算节点间进行分配来实现。划分和分配方案需要与数据的访问一致,原则是计算节点只使用驻留本计算节点的数据进行跟踪,从而减少数据交换。2.2.2并行颗粒跟踪算法的研究传统的科学可视化研究对象主要集中在三维标量场数据。在科学大数据中,经常使用三维流场数据,其原因如下所述。将二维的流场可视化方法直接应用在三维流的结构不可能都成功,每个颗粒虽然可以单独跟踪,但是可能出现在空间中的任何一个位置,这就需要计算节点之间通过通信交换颗粒。同时,当大量的颗粒在空间移动时,每个计算节点可能处理不同数量的颗粒,从而造成计算量严重失衡。解决这些问题的关键是

5、减少计算节点之间的通信开销,其基本思路同并行图像合成算法。2.2.3重要信息的提取与显示技术科学大数据可视化的另一个重要研究方向是如何从数据中快速有效地提取重要信息,并且用这些重要信息来指导可视化的生成。从可视化的角度来看,一方面需要可视化设计表达数据中特定信息的定义,通过人机交互工具,由用户来调整参数,观察和挖掘数据中的重要信息;另一方面需要根据用户的反馈信息调整可视化,以更好地突显重要信息,淡化非重要信息,方便用户对重要信息及其背景的观测。整个信息的提取过程是个典型的交互式可视分析过程。基于这一思想的两个技术是流场可视化的层次流线束技术和用于标量数据的基于距离场的可视化技术。2

6、.2.4原位可视化传统的科学可视化采用科学计算后进行处理的模式。随着计算机系统计算速度的提高,I/O速度与计算速度之间的差距增大。随着计算规模越来越大,而相应生成的数据规模也越来越大,现有的存储系统无法把所有的计算数据都保存下来。解决上述问题的常用方法是采用空间或者时间上的采样方法,最后只保存部分数据,造成结果数据的丢失,不能保证高精度数值模拟。原位可视化的基本思想是:(1)将可视化与科学模拟集成在一起。在科学模拟的过程中,每个时间片的结果生成之后,可以立刻调用可视化模块,直接与科学模拟程序集成。为了减少数据的冗余,可视化程序与科学模拟程序共享数据结构。(2)由于数据的分割和分配优

7、先满足科学模拟的需求,可视化程序的工作分配有可能是不均衡的,需要重现可视化的工作量在各个计算节点上分配算法,减少数据传输。(3)可视化程序的开销不能太高,要保持集成系统的高效能,必须提高可视化程序的效率,其可扩展性必须与科学模拟一致,可以应用上万个、上10万个或更多的计算节点。3信息可视化自18世纪后期数据图形学诞生以来,抽象信息的视觉表达手段一直被用来揭示数据及其他隐匿模式的奥秘。20世纪90年代期间出现的图形化界面则使得人们能够直接与可视化信息进行交互,从而推动了

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。