欢迎来到天天文库
浏览记录
ID:19861721
大小:764.00 KB
页数:10页
时间:2018-10-07
《商务智能与数据挖掘实验报告new》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、商务智能与数据挖掘实验报告课程:商务智能与数据挖掘地点:L2607时间:2012年5月13日学生姓名*******班级电商学号*******成绩实验项目数据挖掘应用实验指导教师*******实验目的1.掌握MicrosoftSQLserver的数据库恢复;2.掌握MicrosoftSQLserverAnlysisService的多维数据分析功能;3.至少掌握一种数据挖掘工具,并能正确地使用;4.利用所掌握的数据挖掘工具进行分类分析、关联分析、聚类分析等。实验要求1.根据提供的“SQL2008SBSDW.bak”文件恢复SQL2008SBSDW数据库;2.
2、在SQL2008SBSDW数据库上搭建多维数据集。3.根据提供的“data02”进行分类分析;4.根据提供的“data02”进行关联分析;5.根据提供的“data01”进行聚类分析;(数据可利用系统自带的进行分析,也可利用提供的数据进行分析)实验内容及实验结果一、对“data02”进行分类分析1.数据格式的转换(1)打开“data02.xls”另存为CSV类型,得到“data02.csv”。(2)在WEKA中提供了一个“ArffViewer”模块,打开一个“data02.csv”进行浏览,然后另存为ARFF文件,得到“data02.arff”。2.分类过
3、程(1)决策树分类用“Explorer”打开数据“data02.arff”,然后切换到“Classify”。点击“Choose”,选择算法“trees-J48”,再在“Testoptions”选择“Cross-validation(Flods=10)”,点击“Start”,开始运行。训练结果:系统默认trees-J48决策树算法中minNumObj=2,得到如下结果===Summary===CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%Kappas
4、tatistic0.7636Meanabsoluteerror0.141Rootmeansquarederror0.3255Relativeabsoluteerror30.7368%Rootrelativesquarederror68.0307%TotalNumberofInstances26===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.824010.8240.9030.892N10.1760.7510.8570.892YWeightedAvg
5、.0.8850.0610.9130.8850.8870.892===ConfusionMatrix===ab<--classifiedas143
6、a=N09
7、b=Y使用不同的参数准确率比较:minNumObj2345CorrectlyClassifiedInstances23(88.4615%)22(84.6154%)23(88.4615%)23(88.4615%)由上表,可知minNumObj为2时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:分析说明:在用J48对数据集进行分类时采用了10折交叉验证(Folds=10)来选择和评估模型,
8、其中属性值有两个Y,N。一部分结果如下:CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%===ConfusionMatrix===ab<--classifiedas143
9、a=N09
10、b=Y这个矩阵是说,原来是“Y”的实例,有14个被正确的预测为“Y”,有3个错误的预测成了“N”。原本是“NO”的实例有0个被正确的预测成为“Y”,有9个正确的预测成了“N”。“14+3+0+9=26”是实例的总数,而(14+9)/26=0.884615正好是正确分类的
11、实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。(2)K最近邻分类算法用“Explorer”打开数据“data02.arff”,然后切换到“Classify”。点击“Choose”,选择算法“lazy-IBk”,再在“Testoptions”选择“Cross-validation(Flods=10)”,点击“Start”,开始运行。训练结果:系统默认lazy-IBkK最近邻分类算法中KNN=1,得到如下结果===Summary===CorrectlyClassifiedInstances2076.9231%IncorrectlyClassifi
12、edInstances623.0769%Kappastatistic0.4902
此文档下载收益归作者所有