欢迎来到天天文库
浏览记录
ID:33580374
大小:1.48 MB
页数:21页
时间:2019-02-27
《大数据应用的现状与展望》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、万方数据计算机研究与发展IssN1000一1239/CN11—1777/TPJournalofComputerResearchandDevelopment50(Suppl.):216—233,2013大数据应用的现状与展望张引陈敏廖小飞(华中科技大学计算机科学与技术学院武汉430074)(yinzhang.cs@gmail.com)BigDataApplications:ASurVeyZhang(S如∞ZYin,ChenMin,andLiaoXiaofeio,CD,”户“f已rScie,zf#口,zd’I曹c^咒DZD93,,H。6口z^o
2、挖gLki口Prsi£yD,SfiP咒fen佗d了_f,l佗o£ogy,Ⅵ‰^口扎430074)AbstractCharacteristicsofbigdatacanbesummarizedasfourVs,i.e.volume(greatvolume),variety(variousmodalities),velocity(rapidgeneration),andvalue(hugevaluebutverylowdensity).Bigdataapplicationcanprovideusefulvalues,judgments,sugg
3、estions,supportsordecisions.Inthispaper,weintroducethemethods,architectureandtoolsforbigdataanalysis.Wethenexaminesixmostcorrelateddataanalysisfields,includingstructureddataanalysis,textanalysis,websiteanalysis,multimediaanalysis,networkanalysis,andmobileanalysis.Finally,w
4、esummarizetheresearchhotspotsandpossibleresearchdirectionsofbigdata.Wealsodiscusspotentialdevelopmenttrendsofbigdata.Keywor‘lsbigdata;dataanalysis;datamining;unstructureddata;internetofthings;socialnetworkdata;crowdsourcing摘要大数据具有规模大、种类多、生成速度快、价值巨大但密度低的特点.大数据应用就是利用数据分析的方法,
5、从大数据中挖掘有效信息,为用户提供辅助决策,实现大数据价值的过程.主要介绍了大数据分析方法、分析模式以及常用的分析工具,将大数据应用归纳为6个关键领域——结构化数据分析、文本分析、Web分析、多媒体分析、社交网络分析和移动分析,并列举了6个大数据的典型应用.最后,从基础理论、关键技术、应用实践以及数据安全4个方面总结了大数据的研究现状,并对大数据应用未来的研究进行展望.关键词大数据;数据分析;数据挖掘;非结构化数据;物联网;社交网络数据;众包中图法分类号TP311在过去的20年中,各个领域都出现了大规模的数据增长,包括医疗保健和科学传感器、
6、用户生成数据、互联网和金融公司、供应链系统等.国际数据公司(IDC)报告称[1],2011年全球被创建和复制的数据总量为1.8ZB(1ZB≈1021B),在短短5年间增长了近9倍,而且预计这一数字将每两年至少翻一番.大数据这一术语正是产生在全球数据爆炸增长的背收稿日期:201311—26基金项目:国家自然科学基金项目(61300224)景下,用来形容庞大的数据集合。与传统的数据集合相比,大数据通常包含大量的非结构化数据,且大数据需要更多的实时分析.此外,大数据还为挖掘隐藏的价值带来了新的机遇,同时给我们带来了新的挑战,即如何有效地组织管理这
7、些数据.如今,工业界、研究界甚至政府部门都对大数据这一研究领域产生了巨大的兴趣.例如,我们经常在公共媒体领域听到万方数据张引等:大数据应用的现状与展望大数据这一话题,包括《经济学人》[z’3]、《纽约时报》[4]、《全国公共广播电台俨6
8、.《自然》和《科学》杂志也分别开放了特殊专栏,来讨论大数据带来的挑战和重要性[7’8].政府机构最近也宣布了一项加快大数据进程的重大计划[9],各行各业也都在积极讨论大数据的吸引力[1⋯.随着网络的快速发展,索引和查询的内容也在迅速增加,大数据给搜索公司带来了巨大的挑战.谷歌创建了谷歌文件系统(GFS)[1
9、妇和MapReduce编程模型[i21来应对网络规模的数据管理和分析所带来的挑战.此外,用户生成数据、各种传感器和其他的数据源也助长了这种势不可挡的数据流,这就需要对计算架构和大
此文档下载收益归作者所有