大数据存储技术.docx

大数据存储技术.docx

ID:18365923

大小:221.50 KB

页数:13页

时间:2018-09-17

大数据存储技术.docx_第1页
大数据存储技术.docx_第2页
大数据存储技术.docx_第3页
大数据存储技术.docx_第4页
大数据存储技术.docx_第5页
资源描述:

《大数据存储技术.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据存储技术刘雷1,杜鹏程2,贺俊铭3,孔庆春4,张莉莉51,2,3,4,5(清华大学计算机科学与技术系,北京100084)Abstract:Bigdataanalysiscomparedwiththetraditionaldatawarehouseapplications,withalargeamountofdataandcomplexqueryanalysis,etc.Bigdatastoragebecauseofitsitselfexists4vcharacteristics,thetraditionalstor

2、agetechnologycannotmeettheneedsoflargedatastorage,dataresourcesthroughtheETLtechnologywasextractedfromthesourcesystem,andisconvertedintoastandardformat,thenusingNoSQLdatabasefordatabaseaccessmanagement,makefulluseofthenetworkcloudstoragetechnologyenterprisestorag

3、ecostsaving,efficiencyadvantage,throughadistributednetworkfilesystemtostoredatainformationintheInternetnetworkresources,usingvisualoperatinginterfacetosatisfytheuser'sdataprocessingrequirementsatanytime.Keywords:Dataacquisition(ETL),dataaccess(NoSQL),cloudstorage

4、,distributedfilesystems,visualization摘要:大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据存储由于其本身存在的4V特征,传统的存储技术不能满足大数据存储的需要,通过ETL技术数据资源被从源系统中提取,并被转换为一个标准的格式,再使用NoSQL数据库进行数据库存取管理,充分利用网络云存储技术节约企业存储成本,提高效率的优势,通过分布式网络文件系统将数据信息存储在整个互联网络资源中,并用可视化的操作界面随时满足用户的数据处理需求。关键词:数据采集(ETL)、数

5、据存取(NoSQL)、云存储、分布式文件系统、可视化1引言在学术界,Nature早在2008年就推出了BigData专刊[1]。计算社区联盟(ComputingCommunityConsortium)在2008年发表了报告《Big9DataComputing:Creatingrevolutionarybreakthroughsincommerce,science,andsociety》[2],阐述了在数据驱动的研究背景下,解决大数据问题所需的技术以及面临的一些挑战。Science在2011年2月推出专刊《Dealingw

6、ithData》[3],主要围绕着科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要性。美国一些知名的数据管理领域的专家学者则从专业的研究角度出发,联合发布了一份白皮书《ChallengesandOpportunitieswithBigData》[4]。该白皮书从学术的角度出发,介绍了大数据的产生,分析了大数据的处理流程,并提出大数据所面临的若干挑战。业界通常用Volume、Variety、Value和Velocity(简称为“4V”,即数据体量巨大、数据类型繁多、价值密度低和处理速度快)四个特征来显著区分大数

7、据与传统数据。大数据技术是一个整体,没有统一的解决方案,本文从大数据生命周期过程的角度讨论了ETL技术、NoSQL、云存储、分布式系统、数据可视化等5个部分。2ETL技术随着信息化进程的推进,人们对数据资源整合的需求越来越明显。但面对分散在不同地区、种类繁多的异构数据库进行数据整合并非易事,要解决冗余、歧义等脏数据的清洗问题,仅靠手工进行不但费时费力,质量也难以保证;另外,数据的定期更新也存在困难。如何实现业务系统数据整合,是摆在大数据面前的难题。ETL数据转换系统为数据整合提供了可靠的解决方案。ETL是Extracti

8、on-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。它可以批量完成数据抽取、清洗、转换、装载等任务,不但满足了

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。