欢迎来到天天文库
浏览记录
ID:56482302
大小:429.73 KB
页数:34页
时间:2020-06-24
《几种数据分析方法的比较分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、分类号密级UDC几种数据分析方法的比较分析孙鑫导师姓名(职称)田煜斌(教授)、黄宝胜答辩委员会主席涂耀文教授申请学科门类理学论文答辩日2007年7月6日申请学位专业概率论与数理统计2007年7月5日研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签
2、名:日期:关于学位论文使用权的说明本人完全了解北京理工大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术交流为目的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。签名:日期:导师签名:日期:摘要数据挖掘中的机器学习方法分为有指导的学习和无指导的学习。有指导学习需要给出不同类别的实例作为训练实例,由这些训练实例得到类的描述,然后给新的测试实例匹配类
3、标,其主要学习任务是分类和回归。本文首先介绍了数据挖掘的发展历史和流行的分类方法,然后重点研究了最小二乘、KNN和逻辑斯蒂回归的分类预测过程。由于目前没有任何一种统计数据分析方法是最优的,所以这些常用方法的评估和选择有重要的意义。本文重点研究了三种模型评估和选择的方法—AIC准则、BIC准则和交叉验证。最后本文根据两类情况,利用计算机模拟现实数据,并用上述三种统计方法对其进行建模做分类预测,再进行模型评估。评估结果是:最小二乘法拟合的模型对第一种情况的模拟数据预测能力优于逻辑斯蒂回归和KNN拟合的模型,而且0类的预测结果明显优于1类的预测结果;KNN
4、拟合的模型对第二种情况的模拟数据预测能力优于最小二乘法和逻辑斯蒂回归拟合的模型。关键字:数据挖掘、分类、最小二乘、最近邻、逻辑斯蒂、交叉验证。AbstractThemethodofMachineLearningincludesSupervisedLearningandUnsupervisedLearninginDataMining.SupervisedLearningneedstosupplydifferentclustersofexamplestobethetrainingexamples,andwecangetthedescriptionofcl
5、ustersfromthetrainingexamples.Thenthenewtestingexamplesneedmatchthemarksofclusters.ThechieflearningmissionsofSupervisedLearningareClassificationandRegression.Firstly,thispaperintroducesthedevelopinghistoryoftheDataMiningandtheprevalentmethodsofClassification.Andthenitmainlyrese
6、archestheprogressofClassificationpredictingofLeastSquare,KNNandLogistic.Nowadays,becauseanymethodofstatisticaldataanalysisisnotthebest,itisverysignificanttoevaluateandselectthemodelsfromthethreemethodsabove.Thispapermainlyresearchesandanalysesthreemethodsofmodelevaluatingandsel
7、ecting----AIC,BICandCross-Validation.Finally,accordingthetwosituations,thispapersimulatesandgeneratesthepracticaldatawithMatlab.Throughthesedata,wecanusethethreemethodstomodelingforclassificationpredictingandevaluatethemodels.Theresultsofevaluating:Forthesimulativedatafromthefi
8、rstsituations,thepredictingabilityofthemodelfromLeastS
此文档下载收益归作者所有