大数据调研报告

大数据调研报告

ID:32378770

大小:488.08 KB

页数:6页

时间:2019-02-04

大数据调研报告_第1页
大数据调研报告_第2页
大数据调研报告_第3页
大数据调研报告_第4页
大数据调研报告_第5页
资源描述:

《大数据调研报告》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、大数据技术市场调查报告:“BigData浪潮”迫使企业做出抉择发表于2012-02-0613:26

2、2517次阅读

3、来源CSDN

4、0条评论

5、作者李智数据中心浪潮数据挖掘数据分析大数据摘要:大数据时代的数据格式特性首先让我们先来了解一下大数据时代的数据格式特性。从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结构类型往往主导于其他结构:结构化信息这种信息可以在关...根据IDC的调查报告预测到2020年全球电子设备存储的数据将暴增30倍,达到35ZB(相

6、当于10亿块1TB的硬盘的容量)。大数据浪潮的到来也为企业带来了新一轮的挑战。对于有准备的企业来说这无疑是一座信息金矿,能够合理的将大数据转换为有价值信息成为未来企业的必备技能。恰逢此时,CSDN专门针对企业相关人员进行了大规模问卷调研,并在数千份的调查报告中总结出现今企业大数据业务的现状。在此我们也将调研结果展示与此以供大家参考。大数据时代的数据格式特性首先让我们先来了解一下大数据时代的数据格式特性。从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结

7、构类型往往主导于其他结构:结构化信息——这种信息可以在关系数据库中找到,多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息,另外,还可对结构数据库信息进行排序和查询;半结构化信息——这是IT的第二次浪潮,包括电子邮件,文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础,可以用于搜索,这也是谷歌存在的理由;非结构化信息——该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看)。许多大数据都是非结构化的,其庞大规模和复杂性需要高级分析工具来创建或利用

8、一种更易于人们感知和交互的结构。企业内部大数据处理基础设施普遍落后 从调查结果可以看出,接近50%的企业服务器数量在100台以内,而拥有100至500台占据了22%的比例。500至2000台服务器则占据剩下28.4%的比例。可以看出面对大数据现今大部分企业还没有完善其硬件基础架构设施。以现阶段企业内大数据处理基础设施的情况来看50%的企业面临大数据处理的问题(中小企业在面对大数据的解决之道应遵循采集、导入/处理、查询、挖掘的流程)。但这只是暂时状况,“廉价”服务器设施会随着企业业务的发展逐渐被淘汰出历史的舞台,在未来企业基础架构体系的硬件选用上,

9、多核多路处理器以及SSD等设备会成为企业的首选。Facebook的OpenComputeProject就在业界树立了榜样,OpenComputeProject利用开源社区的理念改善服务器硬件以及机架的设计。其数据中心PUE值也是领先与业内的其他对手。而在具有大数据处理需求的企业中52.2%的日数据生成量在100GB以下,日数据生成量100GB到50TB占据了43.5%,而令人惊讶的是,日数据生成量50TB以上也有4.4%的份额。数据量持续的增长,公司将被迫增加基础设施的部署。专利费用将一直增加,而开源技术,则省了这笔一直持续的专利费。对于急需改变

10、自己传统IT架构的企业而言,传统的结构化数据与非结构化数据的融合,成了所有人关心的问题。企业面对大数据处理的挑战与问题现今大数据呈现出“4V+1C”的特点。既Variety:一般包括结构化、半结构化和非结构化等多类数据,而且它们处理和分析方式有区别;Volume:通过各种设备产生了大量的数据,PB级别是常态;Velocity:要求快速处理,存在时效性;Vitality:分析和处理模型必须快速变化,因为需求在变;Complexity:处理和分析的难度非常大。从图中我们可以看出资源利用率低、扩展性差以及应用部署过于复杂是现今企业数据系统架构面临的主要

11、问题。其实大数据的基础架构首要需要考虑就是前瞻性,随着数据的不断增长,用户需要从硬体、软件层面思考需要怎样的架构去实现。而具备资源高利用率、高扩展性并对文件存储友好的文件系统必将是未来的发展趋势。应用部署过于复杂也催生了大数据处理系统管理员这一新兴职业,其主要负责日常Hadoop集群正常运行。例如直接或间接的管理硬件,当需要添加硬件时需保证集群仍能够稳定运行。同时还要负责系统监控和配置,保证Hadoop与其他系统的有机结合。而多格式数据、读写速度(读写速度是指数据从端点移动到处理器和存储的速度)以及海量数据是企业面临大数据处理急需解决的技术挑战。

12、众所周知随着大容量数据(TB级、PB级甚至EB级)的出现,业务数据对IT系统带来了更大的挑战,数据的存储和安全以及在未来访问和使用这些数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。