欢迎来到天天文库
浏览记录
ID:43845252
大小:562.70 KB
页数:8页
时间:2019-10-15
《大数据技术发展态势跟踪(上):关于大数据的几个重要观点和产业技术路线发展》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、科技发展研究第10期(总第364期)上海科技发展研究中心2014年04月14日编者按:当前,大数据已经成为社会各界普遍关注的热点。我们基于上海市软科学研究基地—前沿技术发展研究中心对大数据论文和专利数据库的知识图谱研究成果,将分三期对大数据的产业技术路线、研究前沿和产业链竞争格局、商业模式进行分析梳理。供参考。大数据技术发展态势跟踪(上)——关于大数据的几个重要观点和产业技术路线发展大数据(BigData),普遍认为是指在特定行业中,超出常规处理能力、实时生成、类型多样化的数据集合体,具有海量(Volume)、快速(Velocity)、多样(Variety)和价值
2、(Value)的4V特征。最早提出大数据特征的是2001年麦塔集团(后被Gartner公司收购)分析师道格·莱尼(DouglasLaney)发布的《3D数据管理:控制数据容量、处理速度及数据种类》(3DDataManagement:ControllingDataVolume,VelocityandVariety),提出了4V特征中的3V。最早提出词汇“BigData”的是2011年麦肯锡全球研究院发布的《大数据:下一个创新、竞争和生产力的前沿》研究报告。之后,经Gartner技术炒作曲线和2012年维克托·舍恩伯格《大数据时代:生活、工作与1思维的大变革》的宣传推
3、广,大数据概念开始风靡全球。一、关于大数据的几个重要观点大数据发展至今,伴随着很多争议。有人称之为“新瓶装旧酒”,也有人认为大数据的机遇被过于夸大,企业就是在这种怀疑和忐忑中抓紧推进大数据应用。客观上看,大数据在研究范式、企业战略层面具有变革的潜力,但不宜过于强调其新颖性,不应同过去的数据学科领域割裂开来;21世纪以来,大数据技术发生了革命性突破,主要体现在对3V特性的“适应”和“运用”上,目前受益最大的是云计算产业,对其他产业和社会发展的变革作用尚未落地。有如下几个重要判断和观点:1、大数据的核心思想本质是数据挖掘。数据挖掘(DataMining)借助计算机从海
4、量数据中发现隐含的知识和规律,是一门融合了计算机、统计等领域知识的交叉学科,其核心的人工智能、机器学习、模式识别等理论在上世纪90时代推行知识管理时已有显著进展。从本质上看,大数据带来的“思维大变革”以及一些数据驱动类的商业智能(BusinessIntelligence)模式创新,都是数据挖掘理论的延伸,表达为“数据挖掘相对于数理统计带来的思维变革”或许更加准确。比如,因果关系是数理统计中的重要内容,基于完善的数学理论,代表是回归模型;而相关关系是数据挖掘中的重要内容,基于强大的机器运算能力,代表是神经网络、决策树算法,这使得人们不需要了解背后复杂的因果逻辑也可以
5、获得良好的分析和预测结果。从某种程度上说,必须感谢大数据的宣传者,正是这样的热炒才让数据挖掘这样一门小众却极具价值的科学展现在大众眼前,起到了很好的科普作用。2、突破主要来自技术上的“能力拓展”。表现在对多样(Variety)、海量(Volume)、快速(Velocity)特征的“适应”和“运用”上:一是存储数据从结构化向半结构化、非结构化拓展,如基于Web异构2环境下的网页、文档、报表、多媒体等,导致了一批基于非结构化数据的专有挖掘算法的产生和发展。二是数据库从关系型向非关系型、分布式拓展,关系型数据库是以行和列的形式组织起来的结构化数据表,如Excel表格,缺
6、点在于存储容量小、数据扩展性和多样性差,而新的非关系型、分布式数据库可以弥补上述不足。三是数据处理从静态向实时交互拓展,新的大规模分布式并行数据处理技术能够实时处理社交媒体和物联网应用产生的大量交互数据,有效应对多样(Variety)和海量(Volume)带来的复杂度和时效性要求。3、能力拓展直接促成了价值(Value)的实现。得益于上述技术,数据挖掘理论获得了呈几何倍数增长的数据量和处理能力,原本很多无法验证的设想和方法得以实现。比如,传统BI分析有一个“集中”步骤,即在分析前需要对大量数据抽取和集中化,形成一个完整的数据仓库,这个步骤往往成为BI分析全过程的能
7、力瓶颈;而基于大数据分布式技术的BI分析无需“集中”,大大提升了敏捷度和智能水平,从而推动机器学习、语义处理等领域发生重大突破,直接促成了Mahout机器学习算法集、Siri语音助手等一批商用化产品的问世。4、变革的潜力主要体现在数据开放战略和数据驱动范式上。在战略层面,数据处理从封闭、断点、静态向开放、海量、实时的转变,引发了社区、众包、网格等新业态、新模式蓬勃发展,在此基础上将推动机构数据开放和公众共享运动的兴起。在研究范式层面,科学研究出现从推理演绎驱动向数据驱动拓展的苗头,如生物基因与健康等研发密集型产业开始向数据研究科学拓展;许多传统的科学研究如历史、文
8、学等也开始
此文档下载收益归作者所有