《决策树分析算法》word版

《决策树分析算法》word版

ID:29025531

大小:130.04 KB

页数:4页

时间:2018-12-16

《决策树分析算法》word版_第1页
《决策树分析算法》word版_第2页
《决策树分析算法》word版_第3页
《决策树分析算法》word版_第4页
资源描述:

《《决策树分析算法》word版》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据挖掘算法>VisualBasic(Declaration)C#C++J#JScriptMicrosoft决策树算法是由MicrosoftSQLServer2005AnalysisServices(SSAS)提供的分类和回归算法,用于对离散和连续属性进行预测性建模。对于离散属性,该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值或状态预测指定的可预测列的状态。具体地说,该算法标识与可预测列相关的输入列。例如,在预测哪些客户可能购买自行车的方案中,假如在十名年轻客户中有九名购买了自行车,但在十名年龄较大的客户中只有两名购买了自行车

2、,则该算法从中推断出年龄是自行车购买情况的最佳预测因子。决策树根据朝向特定结果发展的趋势进行预测。对于连续属性,该算法使用线性回归确定决策树的拆分位置。如果有多个列设置为可预测列,或输入数据包含设置为可预测的嵌套表,则该算法将为每个可预测列分别生成一个决策树。示例AdventureWorksCycle公司的市场部需要标识其以前客户的特征,这些特征可以指示这些客户以后是否有可能购买其产品。AdventureWorks数据库存储了描述其以前客户的人口统计信息。通过使用Microsoft决策树算法分析这些信息,市场部可以生成一个模型,该模型根据有

3、关特定客户的已知列的状态(如人口统计或以前的购买模式)预测该客户是否会购买产品。算法的原理Microsoft决策树通过在树中创建一系列拆分(也称为节点)来生成数据挖掘模型。每当发现输入列与可预测列密切相关时,算法便会向该模型中添加一个节点。该算法确定拆分的方式不同,主要取决于它预测的是连续列还是离散列。有关Microsoft决策树算法如何处理可预测的离散列的详细说明,请参阅ScalableClassificationoverSQLDatabases和LearningBayesianNetworks:TheCombinationofKnowl

4、edgeandStatisticalData。有关Microsoft决策树算法如何处理可预测的连续列的详细信息,请参阅AutoregressiveTreeModelsforTime-SeriesAnalysis的附录。预测离散列通过柱状图可以演示Microsoft决策树算法为可预测的离散列生成树的方式。下面的关系图显示了一个根据输入列Age绘出可预测列BikeBuyers的柱状图。该柱状图显示了客户的年龄可帮助判断该客户是否将会购买自行车。该关系图中显示的关联将会使Microsoft决策树算法在模型中创建一个新节点。随着算法不断向模型中添加

5、新节点,便形成了树结构。该树的顶端节点描述了客户总体可预测列的分解。随着模型的不断增大,该算法将考虑所有列。预测连续列当Microsoft决策树算法根据可预测的连续列生成树时,每个节点都包含一个回归公式。拆分出现在回归公式的每个非线性点处。例如,请看下面的关系图。该关系图包含可通过使用一条或两条连线建模的数据。不过,一条连线将使得模型表示数据的效果较差。相反,如果使用两条连线,则模型可以更精确地逼近数据。两条连线的相交点是非线性点,并且是决策树模型中的节点将拆分的点。例如,与上图中的非线性点相对应的节点可以由以下关系图表示。两个等式表示两条

6、连线的回归等式。使用算法决策树模型必须包含一个键列、若干输入列和一个可预测列。Microsoft决策树算法支持特定的输入列内容类型、可预测列内容类型和建模标志,如下表所示。输入列内容类型Continuous、Cyclical、Discrete、Discretized、Key、Table和Ordered可预测列内容类型Continuous、Cyclical、Discrete、Discretized、Table和Ordered建模标志MODEL_EXISTENCE_ONLY、NOTNULL和REGRESSOR所有Microsoft算法均支持一些

7、通用的函数。但Microsoft决策树算法还支持其他函数,如下表所示。IsDescendantPredictNodeIdIsInNodePredictProbabilityPredictAdjustedProbabilityPredictStdevPredictAssociationPredictSupportPredictHistogramPredictVariance有关对所有Microsoft算法都通用的函数列表,请参阅数据挖掘算法。有关如何使用这些函数的详细信息,请参阅数据挖掘扩展插件(DMX)函数参考。Microsoft决策树算法

8、支持使用预测模型标记语言(PMML)创建挖掘模型。Microsoft决策树算法支持多个参数,这些参数会对所生成的挖掘模型的性能和准确性产生影响。下表对各参数进行了说明:参数说明M

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。