大数据分析到底需要多少种工具

大数据分析到底需要多少种工具

ID:43622060

大小:342.56 KB

页数:3页

时间:2019-10-11

大数据分析到底需要多少种工具_第1页
大数据分析到底需要多少种工具_第2页
大数据分析到底需要多少种工具_第3页
资源描述:

《大数据分析到底需要多少种工具》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、大数据分析到底需要多少种工具?VDDodaaanJMLR杂志上最近有一篇论文,作者比ST179种不同的分类学习方法(分类学习算法)在121个数据集上的性能,发现RandomForest(随机森林)和SVM(支持向量机)分类准确率最高,在大多数情况下超过其他方法。本文针对“大数据分析到底需要多少种工具?”这一问题展开讨论,总结机器学习领域多年来积累的经验规律,继而导出人数据分析应该采取的策略。1.分类方法大比武大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习乂包括分类学习、回归学习、排序学习、匹配学习等(见图1)

2、。分类是最常见的机器学习应用问题,比如垃圾邮件过滤、人脸检测、用户画像、文木情感分析、网页归类等,本质上都是分类问题。分类学习也是机器学习领域,研究最彻底、使川授广泛的一个分支。图1机器学习分类体系最近、Ferncindez-Delgado等人在JMLR(JournalofMachineLearningResearch,机器学习顶级期刊)杂志发表了一篇冇趣的论文。他们让179种不同的分类学习方法(分类学习算法)在UCI121个数据集上进行了“大比武”(UCI是机器学习公用数据集,每个数据集的规模都不大)。结果发现RandomForest(随机森林)和SVM(

3、支持向量机)名列第一、笫一名,但两者差异不大。在84.3%的数据上、RandomForest压倒了其它90%的方法。也就是说,在大多数情况下,只用RandomForest或SVM事情就搞定了。1.几点经验总结人数据分析到底需要多少种机器学习的方法呢?用绕着这个问题,我们看一下机器学习领域多年得出的一些经验规律。人数据分析性能的好坏,也就是说机器学习预测的准确率,与使丿IJ的学习算法、问题的性质、数据集的特性包括数据规模、数据特征等都有关系。—般地,Ensemble方法包括RandomForest和AdaBoost、SVM>LogisticRegression

4、分类准确率最高。没有-•种方法可以“包打天下”。RandomForest.SVM等方法一般性能最好,但不是在什么条件下性能都最好。不同的方法,当数据规模小的时候,性能往往有较人差异,但当数据规模增人时,性能都会逐渐提升且差异逐渐减小。也就是说,在大数据条件下,什么方法都能work的不错。参见图2中Blaco&Brill的实验结果。对于简单问题,RandomForest.SVM等方法基本町行,但是对于复杂问题,比如语音识别、图像识别,最近流行的深度学习方法往往效果更好。深度学习本质是复杂模型学习,是今后研究的重点。在实际应用中,要提高分类的准确率,选择特征比选

5、择算法更重要。好的特征会带来更好的分类结果,而好的特征的提取需耍对问题的深入理解。O.TC.■■■严*■■D.lX1GIGO1000jailioascfFi2ure1.LearningCiuvesforConfiisionSetJJ.Disambiguation图2不同机器学习方法在数据集增人时的学习曲线。1.应采取的大数据分析策略建立人数据分析平台时,选择实现若干种有代表性的方法即可。当然,不仅要考虑预测的准确率,还有考虑学习效率、开发成本、模型可读性等其他因素。大数据分析平台固然重要,同时需要有一批能够深入理解应用问题,口如使用分析丄具的工程师和分析人员

6、。只有善工利器,人数据分析才能真正发挥威力。【编辑推荐】股票大数据居荡中的一道风景线六个步骤:助你最人化人数据的商业价值为什么大数据技术并不一定总能解决问题七家利用人数据博弈的初创公司从事大数据相关的工作如何1=1学打基础?

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。