欢迎来到天天文库
浏览记录
ID:6807400
大小:217.00 KB
页数:6页
时间:2018-01-26
《基于决策树的数据挖掘算法的应用与研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于决策树的数据挖掘算法的应用与研究摘要:数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势。基于决策树的分类算法在数据挖掘中的应用是非常广泛的。与其他分类算法相比,决策树具有计算量相对较小、易于提取显式规则、可以显示重要的决策属性和分类准确率较高等优点。文章主要是研究数据挖掘中的决策树算法以及决策树算法在具体的客户关系管理系统中的研究与分析,对数据挖掘中的决策树技术做了详细的描述。关键词:数据挖掘,决策树算法,ID3算法,客户管理中图分类号:(作者自己填写)文献标识码:(作者自己填写)Dat
2、aMiningAlgorithmBasedonDecisionTreeApplicationandResearchAbstract:Dataminingistheextractionoflargeamountsofdatainthepotential,unknownusefulinformation,patternsandtrends.Basedondecisiontreeclassificationalgorithmindataminingapplicationsisveryextensive.Compare
3、dwithotherclassificationalgorithms,decisiontreehasacomputationisrelativelysmall,easytoextractexplicitrules,youcandisplayimportantdecision-makingattributesandtheadvantagesofhigherclassificationaccuracy.Thearticleistostudythedecisiontreedataminingalgorithmsand
4、decisiontreealgorithminaspecificcustomerrelationshipmanagementsystemsresearchandanalysis,decisiontreedataminingtechniquesinadetaileddescription.Keywords:datamining,decisiontreealgorithm,ID3algorithm,customermanagement1背景随着信息技术的迅猛发展,人们可以利用计算机方便的获取和存储大量的数据。但是,
5、仅仅停留在对于已获得的数据进行一些表层的处理(如查询、统计等)已越来越不能满足日常工作的需要,因而人们把需要深入挖掘数据之间的内在关系和隐含的信息作为下一步的研究目标。人们迫切需要一种能够智能的、自动的将数据转换成有用信息和知识的技术和工具,这种对强有力数据分析工具的迫切需求使得数据挖掘技术成为了信息技术中的一个前沿的焦点。2数据挖掘的相关理论2.1数据挖掘的概念数据挖掘从大量的,不完整的,有噪声进行模糊随机在原始数据,提取隐瞒,人们事先不知道,而且是潜在有用的,可信的,新颖的信息和知识的过程。数据挖掘由三个步
6、骤组成:数据预处理阶段、模型设计阶段和数据分析阶段。图1数据挖掘流程1、数据预处理阶段(DataPreprocessingPhase)中,特定的业务问题必须得到明确的定义,否则数据挖掘将变得漫无目的。在业务问题的域知识基础上,该阶段的任务包括验证、选择和准备被要求用来论述问题的数据。在构造良好的数据仓库环境里,这些步骤相对简单些,但是仍然会涉及到对采样和平衡数据的考虑。2、模型设计阶段(ModelDesignPhase)需要深入地检查数据,并从中选择那些显示与问题最有关系的字段,它也需要选择一个正确的数据挖掘算
7、法以应用于数据(如:决策树、规则归纳)。然后,最小化地细分数据,一般需要将数据分为一个调整集或者多个测试集。3、数据分析阶段(DataAnalysisPhase)典型地包括一个附加的准备活动(数据转换)来重组数据,以求更好地匹配己选择的算法和业务问题(例如,处理数据中缺少的值)。此后将已经选择好的数据挖掘工具应用于数据,典型情况下包括创建一个采用数据修正集的模型,然后用至少一个测试数据的独立集来证明这个模型。模型的准确性和有效性需有效的评估。初始的模型将很可能没法达到数据挖掘的目的,许多反复是有必要的,尤其是在
8、模型设计和数据分析阶段中。2.2决策树的概念决策树是作为与样本属性结点,用属性的取值作为分支的树型结构。它是进行了分析和归纳利用信息理论的原则,分析大规模的样本属性而产生的。决策树的根节点是最大的属性信息的内容,在所有样本。树的中间节点是在示例子集的根树包含的信息内容最大的属性点。决策树的叶点是样品类别的价值。决策树使用新的样本分类,即通过新的决策树属性值测试的样本,从树的根节点开始,
此文档下载收益归作者所有