毕业设计论文--数据挖掘技术

毕业设计论文--数据挖掘技术

ID:18239920

大小:652.00 KB

页数:56页

时间:2018-09-15

毕业设计论文--数据挖掘技术_第1页
毕业设计论文--数据挖掘技术_第2页
毕业设计论文--数据挖掘技术_第3页
毕业设计论文--数据挖掘技术_第4页
毕业设计论文--数据挖掘技术_第5页
资源描述:

《毕业设计论文--数据挖掘技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、目录摘要iiiAbstractiv第一章绪论11.1数据挖掘技术11.1.1数据挖掘技术的应用背景11.1.2数据挖掘的定义及系统结构21.1.3数据挖掘的方法41.1.4数据挖掘系统的发展51.1.5数据挖掘的应用与面临的挑战61.2决策树分类算法及其研究现状81.3数据挖掘分类算法的研究意义101.4本文的主要内容11第二章决策树分类算法相关知识122.1决策树方法介绍122.1.1决策树的结构122.1.2决策树的基本原理132.1.3决策树的剪枝152.1.4决策树的特性162.1.5决策树的适用问题182.2ID3分

2、类算法基本原理182.3其它常见决策树算法202.4决策树算法总结比较242.5实现平台简介252.6本章小结29第三章ID3算法的具体分析303.1ID3算法分析303.1.1ID3算法流程303.1.2ID3算法评价333.2决策树模型的建立343.2.1决策树的生成343.2.2分类规则的提取373.2.3模型准确性评估383.3本章小结39iv第四章实验结果分析404.1实验结果分析404.1.1生成的决策树404.1.2分类规则的提取404.2本章小结41第五章总结与展望42参考文献44致谢45附录46iv摘要:信息

3、高速发展的今天,面对海量数据的出现,如何有效利用海量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得到迅猛发展。数据挖掘是信息技术自然演化的结果,是指从大量数据中抽取挖掘出来隐含未知的、有价值的模式或规律等知识的复杂过程。本文主要介绍如何利用决策树方法对数据进行分类挖掘。文中详细的阐述了决策树的基本知识和相关算法,并对几种典型的决策树算法进行了分析比较,如:核心经典算法——ID3算法;能够处理不完整的数据、对连续属性的数据离散化处理以及克服了ID3算法偏向于选择取值较多的属性作为测试属性

4、的缺点的C4.5算法;利用GINI系数判别数据集中的分裂属性并形成二叉树的CART算法;使数据的分类不受机器主存的限制,有着良好的伸缩和并行性的SLIQ和SPRNIT算法。ID3算法是最核心的技术,所以本文主要对它进行了研究和设计实现。第四章在JAVA编译器上实现ID3算法,并对结果进行分析,决策树生成,分类规则的提取,以便于以后直接使用这一规则进行数据分析。在论文的最后一章介绍了目前数据挖掘技术的研究前景。关键词:数据挖掘;决策树;ID3算法;信息增益;熵值ivAbstract:Today,themassageispasse

5、dveryquickly.HowtoinvestigatecurrentstatusandforecastthefuturewithgooduseoftremendousoriginalDatahasbeenbecomingthebigchallengetohumanbeingswhenfacingtheemergenceofmassDataininformationera.Consequently,Dataminingtechnologyemergeandboomquickly.Datamining,istheproduct

6、oftheevolutionofinformationtechnology,whichisacomplexprocessexcactingtheimplicatedandvaluablepattens,knowledgeandrulesfromalargescaleofdataset.Thispapermainlyintroducesthedecisiontreealgorithmforclassification.Firstly,thebasicknowledgeaboutdecisiontreeandsomereprese

7、ntativealgorithmsforinducingdecisiontreearediscussed,includingID3,whichisclassical;C4.5,whichcandealwithcontinuousattributesandsomeemptyattribute,atthesametime,itcanovercometheID3’weaknesswhichisapttoselectsomeattributewithmorevalue;CART,whichusesGINIcoefficientabou

8、tattributeselectionandinducesabinarytree;SLIQandSPRINT,whicharescalableandcanbeeasilyparallelized,moreovertheydon’thaveanylimitationofmain

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。