基于某weka地大数据分类和聚类分析报告实验报告材料

基于某weka地大数据分类和聚类分析报告实验报告材料

ID:40003280

大小:748.90 KB

页数:10页

时间:2019-07-17

基于某weka地大数据分类和聚类分析报告实验报告材料_第1页
基于某weka地大数据分类和聚类分析报告实验报告材料_第2页
基于某weka地大数据分类和聚类分析报告实验报告材料_第3页
基于某weka地大数据分类和聚类分析报告实验报告材料_第4页
基于某weka地大数据分类和聚类分析报告实验报告材料_第5页
资源描述:

《基于某weka地大数据分类和聚类分析报告实验报告材料》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、实用文档基于weka的数据分类分析实验报告1实验基本内容本实验的基本内容是通过使用weka中的三种常见分类和聚类方法(决策树J48、KNN和k-means)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。2数据的准备及预处理2.1格式转换方法(1)打开“data02.xls”另存为CSV类型,得到“data02.csv”。(

2、2)在WEKA中提供了一个“ArffViewer”模块,打开一个“data02.csv”进行浏览,然后另存为ARFF文件,得到“data02.arff”。。3.实验过程及结果截图3.1决策树分类(1)决策树分类用“Explorer”打开数据“data02.arff”,然后切换到“Classify”。点击“Choose”,选择算法“trees-J48”,再在“Testoptions”选择“Cross-validation(Flods=10)”,点击“Start”,开始运行。文案大全实用文档系统默认trees-J48决策树算法中minNumObj=2,得

3、到如下结果===Summary===CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%Kappastatistic0.7636Meanabsoluteerror0.141Rootmeansquarederror0.3255Relativeabsoluteerror30.7368%Rootrelativesquarederror68.0307%TotalNumberofInstances26===DetailedAccuracyByClass===T

4、PRateFPRatePrecisionRecallF-MeasureROCAreaClass0.824010.8240.9030.892N10.1760.7510.8570.892YWeightedAvg.0.8850.0610.9130.8850.8870.892===ConfusionMatrix===ab<--classifiedas143

5、a=N09

6、b=Y使用不同的参数准确率比较:minNumObj2345CorrectlyClassifiedInstances23(88.4615%)22(84.6154%)23(88.4615%)23(

7、88.4615%)文案大全实用文档由上表,可知minNumObj为2时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:文案大全实用文档分析说明:在用J48对数据集进行分类时采用了10折交叉验证(Folds=10)来选择和评估模型,其中属性值有两个Y,N。一部分结果如下:CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%===ConfusionMatrix===ab<--classifiedas143

8、a=N09

9、b=Y这个矩阵是说,原来

10、是“Y”的实例,有14个被正确的预测为“Y”,有3个错误的预测成了“N”。原本是“NO”的实例有0个被正确的预测成为“Y”,有9个正确的预测成了“N”。“14+3+0+9=26”是实例的总数,而(14+9)/26=0.884615正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。(2)K最近邻分类算法用“Explorer”打开数据“data02.arff”,然后切换到“Classify”。点击“Choose”,选择算法“lazy-IBk”,再在“Testoptions”选择“Cross-validation(Flods=10)

11、”,点击“Start”,开始运行。训练结果:文案大全实用文档系统默认lazy-IBkK最近邻分类算法中KNN=1,得到如下结果===Summary===CorrectlyClassifiedInstances2076.9231%IncorrectlyClassifiedInstances623.0769%Kappastatistic0.4902Meanabsoluteerror0.252Rootmeansquarederror0.4626Relativeabsoluteerror54.9136%Rootrelativesquarederror96.6

12、94%TotalNumberofInstances26===DetailedAccuracyByClass=

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。