《转weka学习笔记》word版

《转weka学习笔记》word版

ID:30381202

大小:85.55 KB

页数:15页

时间:2018-12-29

《转weka学习笔记》word版_第1页
《转weka学习笔记》word版_第2页
《转weka学习笔记》word版_第3页
《转weka学习笔记》word版_第4页
《转weka学习笔记》word版_第5页
资源描述:

《《转weka学习笔记》word版》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、【转】weka学习笔记【转】weka学习笔记2011-01-0523:55先发表在我的博客上:补记:07年10月做的一个调研报告,因为Weka是一个很好的二次开发平台,现在觉得Weka中的算法实现得很好,但是因为涉及到算法太多,架构也就很复杂,一个简单的功能需要大量的代码来实现,如果只是单独用一两个算法不如直接自己写效率来的高。Weka–怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis)1.Weka简介Weka的官方定义:Weka是数据挖掘中一些机器学习

2、算法的集合。这些算法一般是直接应用于一个数据集上,或者是在你自己的Java代码中调用。Weka中包含了很多工具,包括数据预处理,分类,回归,聚类,关联规则和可视化工具。除了利用Weka进行数据挖掘的同时,Weka也很适合用来开发新的机器学习算法(原文:Wekaisacollectionofmachinelearningalgorithmsfordataminingtasks.Thealgorithmscaneitherbeapplieddirectlytoadatasetorcalledfromyou

3、rownJavacode.Wekacontainstoolsfordatapre-processing,classification,regression,clustering,associationrules,andvisualization.Itisalsowell-suitedfordevelopingnewmachinelearningschemes.)2.Weka的框架结构Weka主要提供了数据挖掘的框架结构,并给出了一系列的数据挖掘算法,在这些数据挖掘算法生成模型时,用户可以自定义算法的各

4、个相关参数,并且可以实现对测试集的验证,和对算法的比较。Weka提供了可编程的接口,使我们可以通过拓展算法来实现新的功能,同时Weka也允许我们通过调用它的公用包,在自己的项目中利用包中的算法实现相应的功能。3.Weka包的主要内容和特点3.1Weka的核心功能Weka主要包括4个核心部分,也是4大功能环境,分别是:1SimpleCLI提供了一个简单的命令行界面,从而可以在没有自带命令行的操作系统中直接执行WEKA命令。对于Weka的命令详细,我们可以参考Wiki[1]。使用命令行有两个好处:一个是可

5、以把模型保存下来,这样有新的待预测数据出现时,不用每次重新建模,直接应用保存好的模型即可。另一个是对预测结果给出了置信度,我们可以有选择的采纳预测结果,例如,只考虑那些置信度在85%以上的结果。2Explorer使用WEKA探索数据的环境。在这个环境中,Weka提供了数据的预处理,数据格式的转化(从CSV格式到ARFF格式的转化,详见第4部分),各种数据挖掘算法(包括分类与回归算法,聚类算法,关联规则等),并提供了结果的可视化工具。对于一个数据集,通过简单的数据的预处理,并对数据挖掘算法进行选择(在W

6、eka3.5版本之后,加入了算法的过滤功能,可以过滤掉那些不适合当前数据集类型的算法),接着通过窗口界面对算法的参数进行配置,最后点击"Start"按钮就可以运行了。可视化工具分为对数据集的可视化和对部分结果的可视化(详情可以参考4.2Weka的输出格式),并且我们可以通过属性选择工具(SelectAttribute),通过搜索数据集中所有属性的可能组合,找出预测效果最好的那一组属性。3Experimenter运行算法试验、管理算法方案之间的统计检验的环境。Experiment环境可以让用户创建,运行

7、,修改和分析算法试验,这也许比单独的分析各个算法更加方便。例如,用户可创建一次试验,在一系列数据集上运行多个算法(schemes),然后分析结果以判断是否某个算法比其他算法(在统计意义下)更好。Explorermenter主要包括简单模式,复杂模式和远程模式。复杂模式是对简单模式的基本功能的扩充,而远程模式允许我们通过分布式的方法进行实验。就功能模块而言,分为设置模块,运行模块和分析模块。在设置模块中我们可以自定义实验,加入多个算法和多方的源数据(支持ARFF文件,CSV文件和数据库),在运行模块中我

8、们可以运行我们的实验,而在分析模块中,我们可以分析各种算法的的准确性,并提供了各种统计方法对结果进行检验比较。值得一提的是,我们可以把实验的各种参数,包括算法,数据集等,保存以方便下一次相同实验的进行;也可以把各种算法保存,方便应用在不同的数据集上;如果数据集来源于数据库的话,实验在过程中可以中止并继续(原因可以是被中止或者是扩展了实验),这样就不用重新运行那些已实验过的算法/数据集祝贺,而仅计算还没有被实验的那些。4KnowledgeFlow这个环境本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。