几种数据分析方法的比较分析.pdf

几种数据分析方法的比较分析.pdf

ID:56482302

大小:429.73 KB

页数:34页

时间:2020-06-24

几种数据分析方法的比较分析.pdf_第1页
几种数据分析方法的比较分析.pdf_第2页
几种数据分析方法的比较分析.pdf_第3页
几种数据分析方法的比较分析.pdf_第4页
几种数据分析方法的比较分析.pdf_第5页
资源描述:

《几种数据分析方法的比较分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、分类号密级UDC几种数据分析方法的比较分析孙鑫导师姓名(职称)田煜斌(教授)、黄宝胜答辩委员会主席涂耀文教授申请学科门类理学论文答辩日2007年7月6日申请学位专业概率论与数理统计2007年7月5日研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签

2、名:日期:关于学位论文使用权的说明本人完全了解北京理工大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术交流为目的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。签名:日期:导师签名:日期:摘要数据挖掘中的机器学习方法分为有指导的学习和无指导的学习。有指导学习需要给出不同类别的实例作为训练实例,由这些训练实例得到类的描述,然后给新的测试实例匹配类

3、标,其主要学习任务是分类和回归。本文首先介绍了数据挖掘的发展历史和流行的分类方法,然后重点研究了最小二乘、KNN和逻辑斯蒂回归的分类预测过程。由于目前没有任何一种统计数据分析方法是最优的,所以这些常用方法的评估和选择有重要的意义。本文重点研究了三种模型评估和选择的方法—AIC准则、BIC准则和交叉验证。最后本文根据两类情况,利用计算机模拟现实数据,并用上述三种统计方法对其进行建模做分类预测,再进行模型评估。评估结果是:最小二乘法拟合的模型对第一种情况的模拟数据预测能力优于逻辑斯蒂回归和KNN拟合的模型,而且0类的预测结果明显优于1类的预测结果;KNN

4、拟合的模型对第二种情况的模拟数据预测能力优于最小二乘法和逻辑斯蒂回归拟合的模型。关键字:数据挖掘、分类、最小二乘、最近邻、逻辑斯蒂、交叉验证。AbstractThemethodofMachineLearningincludesSupervisedLearningandUnsupervisedLearninginDataMining.SupervisedLearningneedstosupplydifferentclustersofexamplestobethetrainingexamples,andwecangetthedescriptionofcl

5、ustersfromthetrainingexamples.Thenthenewtestingexamplesneedmatchthemarksofclusters.ThechieflearningmissionsofSupervisedLearningareClassificationandRegression.Firstly,thispaperintroducesthedevelopinghistoryoftheDataMiningandtheprevalentmethodsofClassification.Andthenitmainlyrese

6、archestheprogressofClassificationpredictingofLeastSquare,KNNandLogistic.Nowadays,becauseanymethodofstatisticaldataanalysisisnotthebest,itisverysignificanttoevaluateandselectthemodelsfromthethreemethodsabove.Thispapermainlyresearchesandanalysesthreemethodsofmodelevaluatingandsel

7、ecting----AIC,BICandCross-Validation.Finally,accordingthetwosituations,thispapersimulatesandgeneratesthepracticaldatawithMatlab.Throughthesedata,wecanusethethreemethodstomodelingforclassificationpredictingandevaluatethemodels.Theresultsofevaluating:Forthesimulativedatafromthefi

8、rstsituations,thepredictingabilityofthemodelfromLeastS

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。