资源描述:
《一种科学数据无损压缩方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、一种科学数据无损压缩方法一种科学数据无损压缩方法吴国清1陈虹?(中国工程物理研究院研究生部,北京100088)(北京应用物理与计算数学研究所,北京100088)E—mail:wgq80@sina.tom摘要现有的通用无损压缩算法往往对文本数据压缩比较有效.而对典型数值模拟数据的压缩则不理想.论文针对科学计算数据的特征,提出首先对科学数据进行预处理,进一步采用小渡变换和洗牌(shuffle),再使用通用无损数据压缩算法进行熵编码的科学数据无损压缩流程,并使用典型算例测试,以较小的时间开销取得了较好的压缩率.关键词小波无损压缩科学数据洗牌文章编号100
2、2—8331一(2006)05—0172—04文献标识码A中图分类号TP311ALosslessCompressionSchemeforScientificDatafromSimulationWuGuoqingChenHong(PostgraduateDepartmentofCAEP,Beijing1@88)(InstituteofAppliedPhysicsandComputationalMathematics,Beijing100088)Abstract:Universallosslessalgorithmofdatacompressionar
3、ealwaysefficienttotextandine£cicienttotypicalnumericaldatafromsimulation.Accordingtothecharacteristicofscientificdata,wefirstlyhavemakenpretreatmentondata.furtherprocessedwavelettransformandshuffle,thenapplieaentropycodingonit.Intheend,wehavecarriedonanexperimentusingtypicalex
4、ampleandobtainedapreferablecompressionratiowithlittletimecost.Keywords:wavelet.losslesscompression,scientificdata,shu册e1引言大规模数值模拟程序产生的科学数据会大龟消耗用户的存储资源和网络传输资源,例如,目前的大规模并行计算程序,其输出数据很容易突破GB级的规模.达到TB甚至PB级的规模.这对绝大多数高性能计算平台都是不小的压力,在数据的后期分析阶段.用户在对某一部分数据进行可视化或者分析时.需要将数据传输到客户端.此时叉会消耗大量
5、的网络传输时间开销.对用户来说.分配给他的磁盘空间似乎永远够,物理问题的求解和计算常常受制于存储资源.有时为了得到一个真实的三维模拟过程.往往需要上百个甚至上千个时间步的数据.整个数据量规模已达TB级.但是由于有限的磁盘空,往往只好采取降低输出结果精度,减少输出物理量,降低分辨率和输出的时间步,甚至降低数据的维度等措施.无法直接得到真实的i维数据结果.数据的片面性严重影响了研究人员评价数值模拟效果的能力.大规模数据的存储问题已经成为制约高性能数值模拟及其结果评估的一个主要瓶颈事实上.我们断为系统替换和增加更多的硬件资源外.还可以从另外的角度来寻求突
6、破.数据压缩可以减少存储空间.又能提高传输速度.对计算重启,结果精细分析和数据挖掘带来很大的利处,为了避免有损压缩可能对科学计算带了误差扩散的影响.对大规模科学数据的无损压缩存储研究就愈发急迫和晕要..2数据压缩算法与科学数据的特点2.1数据压缩算法数据压缩方法按照解码后数据是否能无损失的恢复原始数据,可以分为有损压缩和无损压缩.有损压缩叉叫有失真压缩.解压缩时不能精确恢复原始数据.信息受到损失.它主要应于声音,视频等数据的压缩无损压缩也称为信息保持编码,熵编码,无失真编码等.它的T作原理是减少或去除数据中的冗余度,典型的无损压缩算法还有huffm
7、an编码,算术编码,字典编码,游程编码等等.由于不会产牛失真保证完全的恢复原始数据.凶此在多媒体技术中一般用于文本数据的压缩实际的压缩工具在设计上往往不是单独采用某一种压缩算法.一般足儿种压缩算法相互混用.以达到较好的压缩效果l7l10]对于科学数据无损压缩方法来说.近年来也出现了一些研究成果.如差分法口和基于小波变换的方法H.5t等.总的来说.现有的通用无损压缩算法(如Gzip,Szip和Bzip等)对科学数据的压缩效果都很不理想,远不能满足实际应用的要求.有必要做深入探索2.2科学数据的特点数值模拟揭示的是算子,数学模型的性质或者物理现象本身,
8、其所生成的数据件往具有如下特点:(1)相邻网格点或相邻时问步的数值变换缓慢;(2)精度要求较高,通常为双精度浮点型;(3)