基于大数据的数据挖掘基本技术探究-论文.pdf

基于大数据的数据挖掘基本技术探究-论文.pdf

ID:53028928

大小:207.34 KB

页数:3页

时间:2020-04-14

基于大数据的数据挖掘基本技术探究-论文.pdf_第1页
基于大数据的数据挖掘基本技术探究-论文.pdf_第2页
基于大数据的数据挖掘基本技术探究-论文.pdf_第3页
资源描述:

《基于大数据的数据挖掘基本技术探究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、总第91期现代工业经济和信息化T0talOf912015年第7期ModernIndustrialEconomyandInformationizationNo.72015醢蔫基于大数据的数据挖掘基本技术探究刘庆(重庆科创职业学院,重庆402160)摘要:文章对大数据挖掘过程中涉及的大数据存储、大数据传榆、大数据挖掘等基本技术进行了探究。便于从海量数据堆中挖掘出隐藏的信息,以预测未来某种应用的发展趋势。关键词:大数据存储;大数据传输;大数据挖掘;技术探究中图分类号:TP391.41文献标识码:A文章编号:2095—0748(2015)07—0079—03引言吸引力。随

2、着信息网络的普及和移动互联网的广泛应1.2大数据面临的问题尽管大数据拥有不可估量的挖掘和应用价用,全世界联网设备呈爆发式增长,根据赛门铁克公司的调研报告,全球企业数据存储总量已达值,但从海量数据中得到有价值的数据,却还面临着许多重大技术问题,主要表现在大数据的存到2.2Zb(1ZB等于10GB),并且以每年近储技术、大数据的传输技术和大数据的挖掘技术70%速率增长。如何有效地挖掘“大数据”的潜等还存在很多技术层面的制约因素。大数据的挖在价值,是人类目前面临的重大问题。掘技术又面临着大数据的定位与寻址、大数据的1大数据概述表示方法、大数据的预处理、大数据的高效处1.

3、1大数据特征理、大数据挖掘的匹配模式开发、大数据存储和IDC对大数据的4V特征描述来概括大数据通信能耗等问题。这些技术问题目前都难于有的定义:大数据是指符合海量的数据规模效解决与完善。(volume)、快速的数据流转和动态的数据体系(velOCity)、多样的数据类型(variety)和2数据挖掘概述巨大的数据价值(value)特征的数据。大数据2.1数据挖掘定义的价值主要体现在两个方面:分析使用和二次从技术的角度对数据挖掘(Data开发。通过分析和二次开发,充分挖掘大数据Mining)定义:是指从大量、不完全、有噪的潜在价值,是大数据目前带给我们的最大的声、模糊

4、、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从商业的角度定义数据挖收稿日期:2015-03—15作者简介:刘庆(1973一),男,四川阆中人,本科,重庆科掘:数据挖掘是一种新的商业信息处理技术,其创职业学院大学讲师,计算机网络管理员高级技师。主要研究主要特点是对商业数据库中的大量业务数据进行方向:计算机网络技术。现代工业经济和信息化·8()·xdgyjjxxhx@163.corn第5卷抽取、转换、分析和其他模型化处理,从中提取生的数据总量为161EB,201_1年为180()EB,年辅助商业决策的关键性数据的过程。

5、不管是技术增长率达到60%。与此同时,网络带宽远远没角度还是商业角度,数据挖掘的实质是从海量数有达到这个增长速度,在大数据的传输中,网据中提取出对人类有价值的或有潜在价值的最终络带宽成了技术瓶颈。被人类利用而产生生产力的信息。广域网因地理分布广导致数据传输延时2.2数据挖掘面临的问题大,从而降低了数据传输速率。经过测试,随着数据库技术的迅速发展以及数据库管时延超过40ms时,1000MbPS的网络速率将理系统的广泛应用,人们积累的数据越来越降低到30MbPS。以这样的速度计算,从北京多。目前的数据库系统可以高效实现数据处理大数据存储中心传输100TB的大数据到重庆

6、,与维护等功能,但无法有效发现数据中隐藏的需要的时间为:关联和规则,无法根据现有的数据感知和预测T=B/s=l00xi0BYteS/未来的发展趋势。缺乏挖掘数据背后隐藏的知(30Xl0bitS,Second)=8×1()/3×1()7汉的手段,导致了“数据爆炸但知识贫乏”的2.6×l0(Second),即约300个昼夜,这样现象的出现。的传输效率,不论是传输时问还是传输花销都3大数据挖掘基本技术是无法接受的。因此,将“大数据传递给3.1大数据存储技术序”的传统处理方式,已经完全不能满足大数随着联网没备呈指数方式增长,导致数据据传输技术要求。但通过逆向思维,采取将量

7、激增,这种趋势改变了长期以来以“计算”“大数据传递到程序”的方式,此时,l墩]络系为中心的模式,进而颠覆性改变到以“数据存统传输的通信量将大幅降低。将大数据挖捌程储为的模式。大数据挖掘必须首先解决序传递到大数据存储中心的处理系统中运行,大数据的存储问题。将现有的存储技术RAID并处理结束后,大数据挖掘结果连同程序传输到行存储、NAs附刚存储、SAN存储区域网等网客户端。络存储体系进行有机融合,采取集群网络模式以上大数据传输体系的工作思想,主要优将成千上万的商业网络存储系统连接起来,并势是解决了大数据的传输问题,但还需要解决应用到大数据存储中,这是解决大数据存储的大

8、数据处理系

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。