资源描述:
《大数据挖掘的粒计算理论与方法-jiyeliang》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、中国科学:信息科学2015年第45卷第11期:1355–1369www.scichina.cominfo.scichina.com评述大数据挖掘的粒计算理论与方法梁吉业¬•*,钱宇华¬•,李德玉¬•,胡清华®¬山西大学计算智能与中文信息处理教育部重点实验室,太原030006•山西大学计算机与信息技术学院,太原030006®天津大学计算机科学与技术学院,天津300072*通信作者.E-mail:ljy@sxu.edu.cn收稿日期:2015–05–07;接受日期:2015–06–08;网络出版日期:2015–09
2、–18国家自然科学基金(批准号:61432011,U1435212,61322211)、国家重点基础研究发展计划(973计划)(批准号:2013CB329404)和教育部新世纪人才支持计划(批准号:NCET-12-1031)资助项目摘要大数据往往呈现出大规模性、多模态性以及快速增长性等特征.粒计算是智能信息处理领域中大规模复杂问题求解的有效范式.从推动大数据挖掘研究角度,本文首先概要地讨论了大数据的特征对可计算性、有效性与高效性提出的3大挑战;其次,结合粒计算的思维模式特点,概述了已有研究成果,分析论述了以粒计
3、算应对大数据挖掘挑战的可行性,认为粒计算有望为大数据挖掘提供一条极具前途的崭新途径;最后,对大数据挖掘的粒计算理论与方法中的若干科学问题进行了梳理与展望,以期抛引这一领域的学术思考与研究工作.关键词大数据数据挖掘模式发现粒计算信息粒化多粒度1引言根据维基百科的定义,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合.大数据=海量数据+复杂类型的数据.大数据通常来源于以互联网为载体的虚拟社会系统,或者来源于复杂的工业控制系统、物联网系统、经济与金融系统,现实社会的各种管理与监控系统,以
4、及诸如空间探测、大气与地球科学、生物信息学等科学研究领域[13].2011年IDC公司发布的《数字宇宙研究报告》称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB.预计到2020年,全球将总共拥有35ZB的数据量.大数据在现代信息社会中的数据资源主体地位已成为学术界与企业界的共识.由于对经济活动与社会发展具有可预见的重要推动作用,大数据已经进入了世界主要经济体的战略研究计划.正如美国政府启动的BigDataResearchandDevelopmentInitiative"
5、计划指出的将大力推进大数据的收集、访问、组织和开发利用等相关技术的发展,提高从海量复杂的数据中提炼信息和获取知识的能力与水平".从大数据中进行数据挖掘与知识发现是大数据应用的战略问题之一.引用格式:梁吉业,钱宇华,李德玉,等.大数据挖掘的粒计算理论与方法.中国科学:信息科学,2015,45:1355{1369,doi:10.1360/N112015-00092梁吉业等:大数据挖掘的粒计算理论与方法2大数据挖掘面临的挑战2008年,Nature出版的专辑BigData"从互联网技术、网络经济学、超级计算、环境
6、科学和生物医药等多个方面介绍了大数据带来的挑战[4].2011年2月Science杂志刊发了海量数据处理专题,指出倘若能够更有效地组织和利用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用"[5].大数据的特征常被总结为4V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(快速增长)、Value(价值巨大但密度很低).其中,价值巨大但密度很低"从大数据的利用潜力和当前分析与处理的技术局限性角度概括了大数据的特征,是指大数据的价值虽高,但利用密度很低.本文重点针对大
7、数据的外在形态特征,即大数据的规模海量性、多模态性以及快速增长性等对传统的数据挖掘理论、方法与技术在可计算性、有效性与时效性等方面提出的严峻挑战进行研究.而为应对这些挑战所涌现的新的计算理论、方法与技术将有效推动大数据挖掘的发展与应用.2.1大规模性VS可计算性数据规模的急剧膨胀给数据挖掘,特别是面向互联网的数据挖掘带来了巨大挑战[6;7].为了使巨量数据可计算,一些新的高性能计算方法逐渐涌现.2004年,Google公司首先推出了以MapReduce为代表的非关系数据管理技术,作为面向大数据分析和处理的并行计
8、算模型,很快引起了学术界和工业界的广泛关注.在面向大数据的挖掘技术方面,国内外学者也进行了一些初步探索.比如,针对传统分析软件扩展性差以及Hadoop分析功能薄弱的特点,IBM致力于对R和Hadoop进行集成[8].R是开源统计分析软件,通过R和Hadoop的深度集成,把并行框架下的计算推向数据.另有研究者实现了Weka(类似于R的开源机器学习和数据挖掘工具软件)和MapReduce的