探究海量数据存储数据压缩和数据检索

探究海量数据存储数据压缩和数据检索

ID:36222307

大小:52.50 KB

页数:6页

时间:2019-05-07

探究海量数据存储数据压缩和数据检索_第1页
探究海量数据存储数据压缩和数据检索_第2页
探究海量数据存储数据压缩和数据检索_第3页
探究海量数据存储数据压缩和数据检索_第4页
探究海量数据存储数据压缩和数据检索_第5页
资源描述:

《探究海量数据存储数据压缩和数据检索》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、探究海量数据存储数据压缩和数据检索标题是数据存储压缩和数据检索,文章中只是提到数据的安全性,数据加密,并没有谈及数据的存储压缩,也没有数据压缩算法,正文与标题不对应,数据检索就更没有提及到,如何提高海量数据的检索性能,数据检索的是一点都没有提到摘要:海量数据为数据密集型典型应用中的挖掘和分析任务奠定了基础,已有的海量数据的存储技术为通过分析海量数据而获得更为全面、客观的知识提供了保证。已有的海量数据处理平台、系统和技术,为相应的数据分析任务提供了数据访问的基础,并可有效克服由于数据规模和异构性而引起的访问瓶颈。本文将云计算环境下海量数据存储机制体系

2、进行阐述,并针对数据压缩和数据检索优化算法进行分析。关键词:海量数据;存储;数据压缩;数据检索AnalysisonDataCompressionandDataretrievalintheMassDataStorageAbstract:Hugeamountsofdatafordatamining,andtypicalapplicationofintensivewipesanalysistasklaidasolidfoundation,theexistinghugeamountsofdatastoragetechnologyforthroughthea

3、nalysisofmassdataandgainamorecomprehensive,objectiveknowledgeprovidestheguarantee.Existinghugeamountsofdataprocessingplatform,systemandtechnology,forthecorrespondingdataanalysistaskprovidesthebasisofthedataaccess,andcaneffectivelyovercomeduetoscaleandisomerismdataaccessbottlen

4、eck.Thisarticlewillcloudcomputingenvironmentelaboratesthemechanismofmassdatastoragesystem,andanalyzingoptimizationalgorithmfordatacompressionanddataretrieval.Keywords:Hugeamountsofdata;Storage;Datacompression;Dataretrieval1引言随着网络信息技术的高速发展,由于信息数据量的大规模增加与信息数据价值的不断提高,信息数据的存储和安全这两

5、个方面的问题得到了很高的重视。云存储是从云计算概念上扩展出的一个新的网络存储技术,通过集群应用、网络技术或分布式系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,对外共同提供低成本、大存储的使用需求和资源处理的一个系统[1]。随着云存储的迅速发展和普及,当前市场网络上提供的存储空间已经无法满足数据爆炸式增长带来的存储和备份需求。信息存储的发展正在面临着诸多问题带来的压力和挑战。2云计算环境下海量数据存储机制体系2.1海量数据存储机制体系构架①处理异构和复杂数据。海量数据中可能包含不同类型属性的异构数据或更复杂的数据对象,例

6、如,含有半结构化文本和超链接的Web页面集,具有序列和三维结构的DNA数据,包含地球表面不同位置上的时间序列测量值(温度、气压等)的气象数据等。这些数据类型多样、规模大,而且内在联系(包括时间和空间的自相关性、图的连通性、半结构化文本中元素之间的父子关系等)对于分析任务也至关重要,是海量数据分析技术需要解决的关键问题之一[2]。②克服高维性带来的复杂度。海量数据往往是具有数以百计或数以千计属性的数据集,例如,在生物信息学领域,微阵列技术的进步已经产生了涉及数于特征的基因表达数据;具有时间或空间分量的数据集也趋向于具有很高的维度(即特征数),如考虑包

7、含不同地区的温度测量的数据集,如果在一个相当长的时间周期内重复地测量温度,则维度也相应增长[3]。因此,海量数据分析技术不但要能较好地处理上述高维数据,还要克服随着数据维度的增加而迅速增加的计算复杂性。③保证可伸缩性。针对PB甚至是ZB数量级的数据集,分析算法不但需要以有效的方式来访问数据,还要满足数据分析中搜索和优化等策略在响应时间、吞吐量上的可伸缩性要求。因此,需要考虑内存或非内存算法、抽样技术或分布式并行算法等,从而保证可伸缩性。2.2特征分析和冗余信息过滤预处理当然在考虑节约存储空间和存储效率方面的同时,在云存储模型中,数据自身的保密性在网

8、络通信环境下也是需要得到足够的重视。由于数据中可能包含一些用户的与个人相关的隐私信息,不希望将此类重要的数据以明文的方式直

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。