大数据并行计算框架

大数据并行计算框架

ID:18857897

大小:529.30 KB

页数:4页

时间:2018-09-20

大数据并行计算框架_第1页
大数据并行计算框架_第2页
大数据并行计算框架_第3页
大数据并行计算框架_第4页
资源描述:

《大数据并行计算框架》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、n972014-00834-150008.doc王艳玲2015年第60卷第5-6期:566~569《中国科学》杂志社专辑:大数据研究与应用快讯www.scichina.comcsb.scichina.comSCIENCECHINAPRESS大数据并行计算框架①②③①②③*①②③陈国良,毛睿,陆克中①深圳大学计算机与软件学院,深圳518060;②广东省普及型高性能计算机重点实验室,深圳518060;③深圳市服务计算与应用重点实验室,深圳518060*联系人,E-mail:mao@szu.edu.cn2014-10-09收稿,2014-12-01接受,2015-01-20网络版发表国家高技

2、术研究发展计划(2012AA01A309)、国家自然科学基金委-广东联合基金(U1301252)、国家自然科学基金(61170076,61471243)、广东省重点实验室建设项目(2012A061400024)和深圳市科技计划项目(JCYJ20120613155632545,SGLH20131010163759789,JCYJ20140418095735561)资助摘要大数据是当前IT信息技术研究和应用的热点,但目前的研究多集中在系统和应用层面,关键词而理论基础研究方面相对较少.本文以计算复杂性理论为基础,针对大数据量大、快速和多样NC类计算性等挑战,着重研究大数据的可计算性及其计算原

3、理.首先将多种类型的大数据抽象到度量空度量空间间进行统一化表示以解决多样性问题,其次在度量空间中基于距离对大数据进行划分,最后运数据划分可计算性用NC类计算理论等并行计算理论和方法对大数据问题进行并行求解,以解决量大和快速等问题.本文从更广的视角,根据大数据的特性和大数据整个生命周期,提出处理大数据的策略和技术以及需要变革思维方法研究大数据.当今,除了传统的大科学和工程图灵机上多项式(polynomial)时间内可解.如果所分解的子问题的个数是多项所产生的大数据外,网络连接的世界求解的一类问题.然而在大数据时代,式数目个,且可采用多项式数目个处理也涌现出了大数据,同时一些新技术由于计算

4、函数的对象,即变量和数据,器,在PRAM模型上对其在对数多项式18(如传感技术、新型通信技术等)和新应非常庞大,例如可在EB字节(E=10)时间内(polylogrithmictime)快速完成求[5]用(如物联网和云计算等)也催生了大数量级,即使采用非常快的读写设备解,这就是著名的NC类计算.数据.大数据(bigdata)的时代已经到(例如速度可达6Gb/s的硬盘),线性扫大数据除了大容量(volume)和快来,大数据潮流汹涌澎湃,已经成了描此数组,也可能需要达5年多时间!速率(velocity)外,还有一个重要特性当代IT信息技术研究和应用的热点.从实用的角度,此时间已无法接受,就

5、是多样性(variety),泛指类型和来源然而目前对大数据的研究,大多集中而此类的问题就变成了不可解的广泛,包括结构化的数据库表格数在大数据的系统技术和应用实践层(intractable)问题了.即它属于在理论据,结构化和半结构化的文本、图像、[1~3]面,理论基础方面的探讨相对较上能解,而实际上求解时间太长而无视频数据,非结构化的动态、间断流数[4]少.本文以计算复杂性理论为基础,法使用的不可解问题.据等.对这些数据施行计算前,如何将着重研究大数据的可计算性如何使不可解问题变成可解问题它进行统一的表示呢?其中的一种方(computability)及其计算原理(tractablepro

6、blem)呢?其实解决此类法就是本节介绍的度量空间表示法.(computationalprinciple),主要包括大问题的思想非常简单朴素,那就是使(ⅰ)距离和度量.数据,尤其是数据的统一抽象表示,大数据的划分用并行计算(parallelcomputing)技术,复杂数据,除了用类型(如文本、图像、技术和大数据的NC类(Nick’sclass)计即把一个原来大而复杂的计算问题,视频等)表征外,还要用距离衡量彼此算理论.分解成若干个规模较小可以应对的子的关系和相似性,例如编辑距离、海明众所周知,常规的串行计算问题问题,然后使用多个处理器同时并行距离、欧几里得距离、曼哈顿距离、类主要集中

7、在P类问题上,即在确定的求解诸子问题,最终获得原问题的求豪斯多夫(Hausdroff)距离等.在数学引用格式:陈国良,毛睿,陆克中.大数据并行计算框架.科学通报,2015,60:566–569ChenGL,MaoR,LuKZ.Parallelcomputingframeworkforbigdata(inChinese).ChinSciBull,2015,60:566–569,doi:10.1360/N972014-00834快讯上,一个非空集合

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。