欢迎来到天天文库
浏览记录
ID:21902948
大小:741.23 KB
页数:8页
时间:2018-10-25
《数据挖掘的软件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、IDMer说道:本文只对几种流行的开源数据挖掘平台进行了检视,比如Weka和R等。如果您想找寻更多的开源数据挖掘软件,可以到KDnuggets和OpenDirectory上查看。为了评测这些软件,我们用了UCIMachineLearningRepository上的心脏病诊断数据集。RR(http://www.r-project.org)是用于统计分析和图形化的计算机语言及分析工具,为了保证性能,其核心计算模块是用C、C++和Fortran编写的。同时为了便于使用,它提供了一种脚本语言,即R语言。R语言和贝尔实验室开发的S语言类似。R支持一系列分析
2、技术,包括统计检验、预测建模、数据可视化等等。在CRAN(http://cran.r-project.org)上可以找到众多开源的扩展包。R软件的首选界面是命令行界面,通过编写脚本来调用分析功能。如果缺乏编程技能,也可使用图形界面,比如使用RCommander(http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/)或Rattle(http://rattle.togaware.com)。TanagraTanagra(http://eric.univ-lyon2.fr/wricco/tanagra/)是使用图形界面的
3、数据挖掘软件,采用了类似Windows资源管理器中的树状结构来组织分析组件。Tanagra缺乏高级的可视化能力,但它的强项是统计分析,提供了众多的有参和无参检验方法。同时它的特征选取方法也很多。WekaWeka(WaikatoEnvironmentforKnowledgeAnalysis,http://www.cs.waikato.ac.nz/ml/weka/)可能是名气最大的开源机器学习和数据挖掘软件。高级用户可以通过Java编程和命令行来调用其分析组件。同时,Weka也为普通用户提供了图形化界面,称为WekaKnowledgeFlowEnvi
4、ronment和WekaExplorer。和R相比,Weka在统计分析方面较弱,但在机器学习方面要强得多。在Weka论坛(http://weka.sourceforge.net/wiki/index.php/Related_Projects)可以找到很多扩展包,比如文本挖掘、可视化、网格计算等等。很多其它开源数据挖掘软件也支持调用Weka的分析功能。YALE(IDMer:现在已经更名为RapidMiner)YALE(YetAnotherLearningEnvironment,http://rapid-i.com)提供了图形化界面,采用了类似Win
5、dows资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator)。YALE中提供了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的,基于Weka来构建,也就是说它可以调用Weka中的各种分析组件。KNIMEKNIME(KonstanzInformationMiner,http://www.knime.org)是基于Eclipse开发环境来精心开发的数据挖掘工具。无需安装,方便使用(IDMer:呵呵,大家喜欢的绿色版)。和YALE一样,KNIME也是用Java开发的,可以扩展使用
6、Weka中的挖掘算法。和YALE不同点的是,KNIME采用的是类似数据流(dataflow)的方式来建立分析挖掘流程(IDMer:这个我喜欢,和SASEM或SPSSClementine等商用数据挖掘软件的操作方式类似)。挖掘流程由一系列功能节点(node)组成,每个节点有输入/输出端口(port),用于接收数据或模型、导出结果。(IDMer:感觉KNIME比Weka的KnowledgeFlow更好用,连接节点时很方便,直接用鼠标拖拽连接端口即可。而Weka中则需要在节点上按鼠标右键,再选择后续节点,比较麻烦,刚开始使用时找了半天才知道怎么连)KN
7、IME中每个节点都带有交通信号灯,用于指示该节点的状态(未连接、未配置、缺乏输入数据时为红灯;准备执行为黄灯;执行完毕后为绿灯)。在KNIME中有个特色功能——HiLite,允许用户在节点结果中标记感兴趣的记录,并进一步展开后续探索。OrangeOrange(http://www.ailab.si/orange)是类似KNIME和WekaKnowledgeFlow的数据挖掘工具,它的图形环境称为Orange画布(OrangeCanvas),用户可以在画布上放置分析控件(widget),然后把控件连接起来即可组成挖掘流程。这里的控件和KNIME中的
8、节点是类似的概念。每个控件执行特定的功能,但与KNIME中的节点不同,KNIME节点的输入输出分为两种类型(模型和数据),而Orange
此文档下载收益归作者所有