一种基于动态调度的数据挖掘并行算法

一种基于动态调度的数据挖掘并行算法

ID:22508870

大小:98.18 KB

页数:15页

时间:2018-10-29

一种基于动态调度的数据挖掘并行算法_第1页
一种基于动态调度的数据挖掘并行算法_第2页
一种基于动态调度的数据挖掘并行算法_第3页
一种基于动态调度的数据挖掘并行算法_第4页
一种基于动态调度的数据挖掘并行算法_第5页
资源描述:

《一种基于动态调度的数据挖掘并行算法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、一种基于动态调度的数据挖掘并行算法摘要:相比其他分类算法,朴素贝叶斯算法最大的优点就是适合被并行化改造。由于单机分类算法不适应大规模数据的处理,而云计算动态调度的出现为大数据处理带来了希望,运用并行计算的思想改进算法能提高分类速度。结合朴素贝叶斯算法易于并行化的特点对算法进行相应的改进。在单机串行、Hadoop、Spark以及CUDA平台上进行了性能对比实验,最终证明了分类算法并行化后具有较好的加速比。关键词:数据挖掘;朴素贝叶斯;动态调度;并行计算中图分类号:TN911734;TM417文献标识码:A文章编号:1004?373X(2016)15?0156?04Abstr

2、act:Incomparisonwithotherclassificationalgorithms,thenaiveBayesalgorithmissuitableforparallelimprovement.Thesinglemachineclassificationalgorithmisunsuitableforthelarge?scaledataprocessing,howevertheoccurrenceofcloudcomputingdynamicschedulingbringsthehopeforbigdataprocessing.Theparallelcom

3、putingimprovementalgorithmisusedtoenhancetheclassificationspeed.ThealgorithmwasimprovedcorrespondinglyincombinationwiththeeasilyparallelcharacteristicofnaiveBayesalgorithm.Theperformancecontrastexperimentswereperformedonsinglemachineserialmode,Hadoop,SparkandCUDAplatform.Itisverifiedthatt

4、heparalleledclassificationalgorithmhasgoodspeed?upratio.Keywords:datamining;naiveBayes;dynamicscheduling;parallelcomputing0引言传统的基于单机的文本处理方法,在存储容量和处理速度上都遇到了瓶颈,如何处理海量数据是一个重要问题。云计算平台动态调度提供的海量数据的处理能力在文本数据挖掘领域中是非常有效的方案,它能体现出对海量数据的并行计算优势。因此,文本数据挖掘领域的众多研宄者将研宄重心转移到传统文本数据挖掘算法的并行化研宄之中以提高海量数据的处理能力。本

5、文研宄基于朴素贝叶斯算法的海量中文微博的情感分类以及算法的并行化。通过有效的情感特征识别方法提取出中文微博的情感特征,在这些特征的基础上对微博进行情感分类,致力于在精度、效率上提高。对微博情感分类技术的研究集中于以下几个方面:设计实现海量微博情感分析系统、设计基于朴素贝叶斯的微博情感分类模块以及在大数据下的算法并行化研究等。最后,将其推广到集群模式下进行实验分析,用开源云计算平台Hadoop框架和下一代云计算大数据核心技术Spark以及通过GPU下CUDA的编程技术提高文本分类效率和性能。基于动态调度改变算法的编程模型,实现算法预期的并行性能优化,解决了海量微博数据的情感

6、分类问题。1微博情感数据挖掘分类模块情感数据挖掘模块包括:微博数据处理、特征计算和分类器模块。微博数据处理包括数据获取,微博预处理;特征计算模块包括特征提取、构建向量空间模型;分类器模块包括分类器、结果评估。整体的研宄结构图如图1所示。1.1微博数据处理模块微博数据处理模块包括:数据获取和微博文本预处理。(1)实验中训练集样本和测试集样本来源于互联网,是由实验室根据新浪微博网站API和网络爬虫获取。由于获取的微博中包含的话题标签与句子的情感极性没有必然的联系,为了不影响最终的分类结果,首先要将微博文本中的话题标签去掉,只留下文本中的主体部分。同时还应该做以下几项工作:微博

7、文本规则化处理,统计所选取微博的条数,提取并去除话题标签,按照积极性和消极性把句子分成两类。微博文本的规则化处理目的是减少分词时可能引起的误差,其中包括把英文字符统一成大写,多个标点符号重复出现转化为一个标点符号只出现一次,全角符号转化为半角符号,所有不规范的省略号转化为规则的省略号等。(2)微博文本预处理模块主要是基于一些自然语言处理方法实现的,主要包括中文微博分词、去除停用词等。主要功能包括:中文分词、词性标注、命名实体识别、用户词典功能;它支持多种编码;支持微博分词、新词发现与关键词提取。由于中文微博语言包含了很多口语化

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。