资源描述:
《大数据存储技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、大数据存储技术刘計杜鹏程2,m5心"(淸华大学计算机科学与技术系,北京100()84)Abstract:Bigdataanalysiscomparedwiththetraditionaldatawarehouseapplications,withakirgeamountofdataandcomplexqueiyanalysis,etc.Bigdatastoragebecauseofitsitselfexists4vcharacteristics,thetraditionalstoragetechnologyca
2、nnotmeettheneedsoflargedatastorage,dataresourcesthroughtheETLtechnologywasextractedfromthesourcesystem,andisconvertedintoastandardformat,thenusingNoSQLdatabasefordatabaseaccessmanagement,makefulluseofthenetworkcloudstoragetechnologyenterprisestoragecostsavin
3、g,efficiencyadvantage,throughadistributednetworkfilesystemtostoredatainformationintheInternetnetworkresources,usingvisualoperatinginterfacetosatisfytheusersdataprocessingrequirementsatanytime.Keywords:Dataacquisition(ETL),dataaccess(NoSQL),cloudstorage,distr
4、ibutedfilesystems,visualization扌商要:大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据存储由于其本身存在的4V特征,传统的存储技术不能满足大数据存储的需要,通过ETL技术数据资源被从源系统中提取,并被转换为一个标准的格式,再使用NoSQL数据库进行数据库存取管理,充分利用网络云存储技术节约企业存储成本,提高效率的优势,通过分布式网络文件系统将数据信息存储在整个互联网络资源中,并用可视化的操作界面随时满足用户的数据处理需求。关键词:数据采集(ETL)、数
5、据存取(NoSQL)、云存储、分布式文件系统、可视化1引言在学术界,Nature早在2008年就推出了BigData专刊[1]。计算社区联盟(ComputingCommunityConsortium)在2008年发表了报告《Big9DataComputing:Creatingrevolutionarybreakthroughsincommerce,science,andsociety》[2J,阐述了在数据驶动的研究背景下,解决人数据问题所需的技术以及而临的-些挑战。Science在2011年2月推出专刊《Dea
6、lingwilhDala》[3],主要围绕着科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要性。美国一些知名的数据管理领域的专家学者则从专业的研究角度出发,联合发布了一份白皮书^ChallengesandOpportunitieswithBigData》[4]。该白皮书从学术的角度出发,介绍了人数据的产生,分析了人数据的处理流程,并提出人数据所面临的若干挑战。业界通常用Volume>Variety>Value和Velocity(简称为“4V”,即数据体量巨大、数据类型繁多、价值密度低和处理速度快)四
7、个特征来显着区分大数据与传统数据。大数据技术是一个整体,没有统一的解决方案,木文从大数据生命周期过程的角度讨论了ETL技术、NoSQL、云存储、分布式系统、数据可视化等5个部分。2ETL技术随着信息化进程的推进,人们对数据资源整合的需求越来越明显。但面对分散在不同地区、种类繁多的异构数据库进行数据整合并菲易事,要解决冗余、歧义等脏数据的清洗问题,仅靠手工进行不但费时费力,质量也难以保证;另外,数据的定期史新也存在闲难。如何实现业务系统数据整合,是摆在大数据而前的难题。ETL数据转换系统为数据幣合提供了可靠的解决
8、方案。ETL是ExtractionTransformationLoading的缩写,中文名称为数据提取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓廂或数据集市中,成为联机分析处理、数据挖掘的基础。它可以批杲完成数据抽取、淸洗、转换、装载等任务,不但满足了人们对种类繁多的异构数据库进行整合的需求,同