一种大数据时代海量数据抽取的开发模型研究.pdf

一种大数据时代海量数据抽取的开发模型研究.pdf

ID:52886042

大小:302.38 KB

页数:4页

时间:2020-03-31

一种大数据时代海量数据抽取的开发模型研究.pdf_第1页
一种大数据时代海量数据抽取的开发模型研究.pdf_第2页
一种大数据时代海量数据抽取的开发模型研究.pdf_第3页
一种大数据时代海量数据抽取的开发模型研究.pdf_第4页
资源描述:

《一种大数据时代海量数据抽取的开发模型研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第30卷第11期计算机应用研究Vol.30No.112013年11月ApplicationResearchofComputersNov.2013*一种大数据时代海量数据抽取的开发模型研究121罗恩韬,胡志刚,林华(1.湖南科技学院计算机与通信工程系,湖南永州425006;2.中南大学软件学院,长沙410073)摘要:随着大数据增长速度提高、数据体量增大,数据的冗余也将会越来越大,传统的数据软件分析模型已经不能满足需要海量信息的处理和分析的需要,如何从大数据里面抽取有效的信息,对数据进行有效的分析和决策,建立新的数据模型,对数据进行分析和处理就显得尤为重要。采取了一种更适

2、合大数据时代的数据抽取模型,并给出了数据抽取的判定方法。此方法具有复杂度低,易于实现,具有良好的估计性能。关键词:大数据;数据抽取;SAT模型中图分类号:TP391.4文献标志码:A文章编号:1001-3695(2013)11-3269-03doi:10.3969/j.issn.1001-3695.2013.11.015Bigdataeradevelopmentmodelresearchofhugeamountsofdataextraction121LUOEn-tao,HUZhi-gang,LINHua(1.Dept.ofComputer&CommunicationEn

3、gineering,HunanUniversityofScience&Engineering,YongzhouHunan425006,China;2.SchoolofSoftware,CentralSouthUniversity,Changsha410073,China)Abstract:Withthebigdata’sgrowthspeedanditsquantityincreasing,data’sredundancywillbemoreserious.Sothetra-ditionaldatasoftwareanalysismodelcan’tsatisfythe

4、needofmassinformation’sprocessingandanalysis.Soit’sespeciallyimportantthathowtogetusefulinformationfrommassinformation,howtoanalyzedataandhowtosetupnewdatamodeltoanalyzeandprocessdata.Thispassageusedadataextractionmodewhichwasverysuitedtobigdataera,anditappliedthewayofhowtojudgedataextra

5、ction.Thismethodhasadvantagesoflessdifficulty,easiertorealizeandagoodestimatedper-formance.Keywords:bigdata;dataextraction;SATmodel随着云时代的来临,大数据和云计算成为当前最为热门的执行或者数据流方法的处理模块。以上三个模块的引入,数据话题,围绕新的应用模式下(如云计算)对海量数据处理的突的冗余性会降低,编程效率和扩展性会得到大大提高,而且依出需求,讨论海量信息处理系统的构造、数据存储与编程模型赖该模型开发的软件有较强的健壮性。的研究等也提上

6、日程。1传统的BSP软件开发模型目前针对大数据的编程模型已经比较多,但基本都是在传统的BSP开发模型上的扩展。文献[1]提出的是一种海量信BSP模型在并行计算时代产生,它主要为软件与硬件之间息处理的编程模型,主要介绍了海量信息的数据抽取;文献架起一座桥梁,因此,BSP模型也常叫做桥模型。其工作原理[2]提出的是信息处理领域的数据网格及其关键技术研究,主是:它将处理器与路由器分开,强调了数据计算任务与数据通要介绍了数据信息领域的网格化;文献[3]提出的是基于Ha-信任务的分开,数据计算与数据通信的分离有助于简化通信协doop的海量数据处理模型的研究和应用,主要在Hadoo

7、p编程议,同时使互联网的网络拓扑的耦合性降低,从而更加稳定;框架;文献[4]提出的是信息粒度计算模型在信息处理中的应BSP模型对数据的处理主要从硬件方面来提高数据的可控粗用研究,其主要研究是信息力度模型在信息处理方面的重要粒度级,是数据并行计算执行耦合同步算法的有效算法模型,性。这些编程模型都是围绕并行计算时代的BSP编程模型进同时对程序的架构不要求过分分担。行的扩展研究,但是在大数据时代,传统的开发模型已经不能1.1BSP模型的计算满足数据开发、数据抽象和数据分析的需要,因此本文结合在BSP模型中,对于信息数据的处理计算由一系列总时BS

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。