欢迎来到天天文库
浏览记录
ID:27888058
大小:70.12 KB
页数:5页
时间:2018-12-06
《数据挖掘深度决定大数据应用价值》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据挖掘深度决定大数据应用价值所谓大数据,是信息化到一定阶段之后必然出现的现象,是由于信息技术的不断廉价化,以及互联网及其延伸所带来的无处不在的信息技术应用所带来的自然现象。基本上,大数裾有四个驱动力,即摩??定律所驱动的指数增长模式;技术低成本化驱动的万物数字化;宽带移动泛在互联驱动的人机物广联连接;云计算模式驱动的数据大规模的汇聚。目前,大数据正带来新一波信息化浪潮。回顾信息化发展过程,有两个明显的阶段。第一阶段始于PC机正式进入市场,以单机应用、数字化为特征,该阶段核心业务的数字化工作主要依托PC机;第二阶段是20世纪90年代中期至今,以联网应用为特征,网络化推动了数据大集中。随着
2、企业伞球化发展布局加快,我们正迈入信息化发展的第三阶段,即以数据的深度挖掘和融合应用为特征的智慧化。大数据提供了人类认识复杂系统的新思维、新手段,已成为提升国家综合能力和保障国家安全的新利器。从信息技术视角来看,云计算、物联网、人数据、移动互联网、人工智能等都属于互联网时代的信息新技术。从制造业视角,移动互联网、物联网、GPS作为互联网的延伸,更强调在制造业全价值链的提升与整合中信息的应用;而在互联网眼中,则更强调对传统产业的影响、改造和升级,构造新产品、新业务、新生态的力量。我认为,“互联网+”本质上是传统行业或产业信息化的深度和泛在化,是孕育新兴业态的平台;是互联网技术、模式和思想与
3、传统行业或产业的深入融合,将会促进信息基础设施的完善、数据资源的积累、新兴业态的诞生和成长;“互联网+”是信息化发展第三阶段的基础设置、思维模式和实施指南,数据的深度挖掘与融合应用将是新一代信息化应用的主要特征。大数据可以从两个角度来定义。从技术能力视角来看,大数据指的是规模超过现有数据库工具获取、存储、管理和分析能力的数据集,同时并不是超过某特定数量级的数据集才是人数据。从数据内涵视角来看,人数据是具备海量、高速、多样、可变等特征的多维数据集,需要通过可伸缩的体系结构实现高速的存储、处理和分析。大数椐重构IT架构大数据将给我们带来哪些挑战?我认为最重要的应该是思维模式的变化。通过大数据
4、,我们能够认识复杂系统的新思维,促进经济转型,提升国家综合能力,保障国家安全,提升政府治理能力以及服务民生、社会的能力。冃前来看,我觉得大数据已处于过热状态,有炒作之嫌。很多地方一窝蜂搞“大数据”,殊不知大数据不可能是解决一切问题的法宝,更不应该成为各行各业的马甲。真正的大数据应该体现在多源数据的融合,绝不仅仅是数据的“海量”。而事实上,不少地方、行业搞的大数据,只是单一数据的简单叠加,并不是真正的大数据。更何况,有的行业根本不需要大数据分析,也来凑热闹。由此也带来了一些问题。第一,宣传过热但我们对数据的认识却不到位;第二,投入过热但资源浪费现象明显;第三,大数据定义业内己有共识,但核心
5、观点、命题还存在很多争议。例如如何定义数字化世界的大或小,如何更好地基于理论知识的突破来获得数据分析结论。此外,大数据现象的长期存在对我们的计算能力也在不断提出挑战。一是分析对象从过去经过预处理的数据转变为现在的原始数据,以前是样本数裾,现在是全数据,以前是单源单模态数裾,现在是多源多模态数据,即分析对象发生了根本变化;二是分析需求发生了变化,我们现在需要高精度分析、复杂关联的深层特征,以及人规模的复杂关联;三是变化分析模型能力的变化,我们需要追求从表达力受限的低维数据到高信息量的高维数据,从弱表达力的简单模型到强表达力的复杂模型。目前来看,绝大多数采用的大数据分析方法主要是可视化展现、
6、统计分析,以及机器学习技术。而现在以通用性考虑为主的IT体系也很难满足大数据的需求,有必要考虑对整个TT架构进行革命性重构。大数据三个应用层次大数据的价值己被广泛认知,并应用在很多地方。例如,谷歌研发的无人驾驶汽牟,不仅有实时感知系统,而且还有基于大数据的认知网络。比如小球滚到路口,根据大数据分析,可能后面还会跟着一个小孩,无人驾驶汽车就要注意避让。大数据应用有这样一个经典案例:在美国沃尔玛连锁超市中,尿布和啤酒摆在一起出倍,并且销量双双增加了。原来,美国的妇女经常会嘱咐丈夫下班后为孩子买尿布。而丈夫买完尿布后又耍顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会很多。而正是商家通过
7、对超市一年多原始交易数字进行详细分析,才发现了这对神奇的组合。对当下很火的大数据预测,也不能全信。比如大数据预测奥斯卡奖,有其一定合理性。但是用大数据预测股市却不能全信,因为这是一个开放系统,股民看到大数据分析后会有从众心理,影响股市走向。随着大数据应用案例不断涌现,我们可将其分为四类,一是互联网类数裾,二是科学实验类数据,三是物联网类数据,四是组织业务类数据。大数据从应用层次上又有三个划分。第一个层次是关注当前发生的现象,将发展态
此文档下载收益归作者所有