欢迎来到天天文库
浏览记录
ID:45755536
大小:320.25 KB
页数:12页
时间:2019-11-17
《Clementine决策树CHAID算法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、CHAID算法(Chi-SquareAutomaticInteractionDetection)CHAID提供了一种在多个口变量川口动搜索能产生最大差异的变量方案。不同于C&R树和QUEST节点,CHAID分析可以生成非二进制树,即冇些分割冇两个以上的分支。CHAID模型需要一个单一的目标和一个或多个输入字段。还可以指定重虽和频率领域。CHAID分析,卡方自动交互检测,是一种用卡方统计,以确定最佳的分割,建立决策树的分类方法。1.CHAID方法(卡方自动交叉检验)CHAID根据细分变量区分群体差异的显著性程度(
2、卡方值)的大小顺序,将消费者分为不同的细分群体,最终的细分群体是由多个变量屈性共同描述的,因此屈于多变量分析。在形式上,CHAID非常直观,它输出的是一个树状的图形。1.它以因变量为根结点,对每个自变量(只能是分类或冇序变量,也就是离散性的,如果是连续变量,如年龄,收入要定义成分类或冇序变量)进行分类,计算分类的卡方值(Chi-Square-Test)o如果几个变量的分类均显著,则比较这些分类的显著程度(P值的人小),然后选择最显著的分类法作为子节点。2.CHIAD可以自动归并自变量中类别,使之显著性达到最大。
3、3.最后的每个叶结点就是一个细分市场CILA1D口动地把数据分成互斥的、无遗漏的组群,但只适用于类别型资料。当预测变量较多且都是分类变量时,OHAID分类最适宜。2.CHAID分层的标准:卡方值最显著的变量3.CHAID过程:建立细分模型,根据卡方值最显著的细分变最将群体分出两个或多个群体,对于这些群体再根据其它的卡方值相对最显著的细分变量继续分岀了群体,直到没有统计意义上、显著的细分变量可以将这些子群体再继续分开为止。4.CHAID的一般步骤-屈性变量的预处理-确定当前分支变杲和分隔值属性变量的预处理:-对定
4、类的属性变量,在共多个分类水平屮找到对LI标变量取值影响不显著的分类,并合并它们;-对定距型属性变量,先按分位点分组,然后再合并具冇同质性的组;-如果目标变量是定类变量,则采用卡方检验-如果目标变量为定距变量,则采用I;检验(统计学依据数据的计量尺度将数据划分为三大类,即定距型数据(Scale)、定序型数据(Ordinal)和定类型数据(Nominal)。定距型数据通常指诸如身高、体巫、血压等的连续性数据,也包括诸如人数、商品件数等离散型数据;定序型数据具冇内在固冇大小或高低顺序,但它又不同于定距型数据,一般可
5、以数值或字符表示。如职称变量可以有低级、中级和高级三个取值,可以分别用1、2、3等表示,年龄段变量可以有老、中、青三个取值,分别用A、B、C表示等。这里无论是数值型的1、2、3还是字符型的A、B、C,都是有大小或高低顺序的,但数据之间却是不等距的。因为低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的;定类型数据是指没冇内在固定人小或高低顺序,一般以数值或字符表示的分类数据。)卜'检验:比较两组数据的方差",F=占,假设检验两组数据没冇显著差异,1VF表,则接受S小原假设,两组数据没冇显著差异;F>1
6、;表,拒绝原假设,两组数据存在显著差异。属性变量预处理的具体策略-如果仅冇一个或两个分组,则不做合并处理-根据卡方统计量(或似然比卡方)的P-值决定合并哪些组(P值>amerge)-如果用户指定在合并同时还考虑组拆分(Allowsplittingmergedcategories),贝lj新近合并的组中如果包括三个以上的原始分组,应根拥检验结果判断是否需再拆分成两组(P-值split-merge)确定当前分支变量和分隔值-计算经预处理后的各属性变量与目标变量的卡方检验统计量和P-值。P-值最小的变量(与冃标变量联
7、系最紧密)作为当前的最佳分支变量,该变量的所有分组形成该分支下的子节点对每个子节点重复上述处理,直到满足收敛条件为止5.CHAID的适用范围当预测变量是分类变量时,CHAID方法最适宜。对于连续型变量,CHAID在缺省状态下将连续变量自动分为10段处理,但是可能冇遗漏。当预测变量是人口统计变量时,研究者可以很快找出不同细分市场特征,免去对交义分析表归并与检查Z苦。6.CHAID的预剪枝基本参数:1.决策树最大深度:如果决策树的层数己经达到指定深度,则停止生长。2.树中父节点和子节点所包含的最少样本戢或比例:对父
8、节点是指,如果节点的样木虽己低于最少样本量或比例,则不再分组;对于子节点是指,如果分组后生成的子节点中的样本量低于最小样本或比例,则不必进行分组。3.当输入变量与输出变量的相关性小于一个指定值,则不必进行分组。7.CHAID模块的优点:-不像CART和QUEST模块,C1IAID可产生多分枝的决策树标变量可以定距或定类的-从统计显著性角度确定分支变量和分隔值,进而优化树的分枝过程-C1
此文档下载收益归作者所有