clementine使用手册

ID：1651917

大小：1.71 MB

页数：17页

时间：2017-11-12

资源描述：

《clementine使用手册》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、1. 定义数据源将一个Datebase源组件加入到数据流设计区，双击组件，设置数据源为dbo.vTargetMail视图。在Types栏中点“ReadValues”，会自动读取数据个字段的Type、Values等信息。 Values是字段包含的值，比如在数据集中NumberCardsOwned字段的值是从0到4的数，HouseOwnerFlag只有1和0两种值。Type是依据Values判断字段的类型，Flag类型只包含两种值，类似于boolean；Set是指包含有限个值，类似于enumerat

2、ion；Ragnge是连续性数值，类似于float。通过了解字段的类型和值，我们可以确定哪些字段能用来作为预测因子，像AddressLine、Phone、DateFirstPurchase等字段是无用的，因为这些字段的值是无序和无意义的。Direction表明字段的用法，“In”在SQLServer中叫做“Input”,“Out”在SQLServer中叫做“PredictOnly”,“Both”在SQLServer中叫做“Predict”，“Partition”用于对数据分组。 2. 理解数据在

3、建模之前，我们需要了解数据集中都有哪些字段，这些字段如何分布，它们之间是否隐含着相关性等信息。只有了解这些信息后才能决定使用哪些字段，应用何种挖掘算法和算法参数。在除了在建立数据源时Clementine能告诉我们值类型外，还能使用输出和图形组件对数据进行探索。例如先将一个统计组件和一个条形图组件拖入数据流设计区，跟数据源组件连在一起，配置好这些组件后，点上方绿色的箭头。等一会，然后这两个组件就会输出统计报告和条形图，这些输出会保存在管理区中（因为条形图是高级可视化组件，其输出不会出现在管理区）

4、，以后只要在管理区双击输出就可以看打开报告。 3. 准备数据将之前的输出和图形工具从数据流涉及区中删除。将FieldOps中的Filter组件加入数据流，在Filter中可以去除不需要的字段。我们只需要使用MaritalStatus、Gender、YearlyIncome、TatalChildren、NumberChildrenAtHome、EnglishEducation、EnglishOccupation、HouseOwnerFlag、NumberCarsOwned、CommuteDist

5、ance、Region、Age、BikeBuyer这些字段。加入Sample组件做随机抽样，从源数据中抽取70%的数据作为训练集，剩下30%作为检验集。注意为种子指定一个值，学过统计和计算机的应该知道只要种子不变，计算机产生的伪随机序列是不变的。因为要使用两个挖掘模型，模型的输入和预测字段是不同的，需要加入两个Type组件，将数据分流。决策树模型用于预测甚麽人会响应促销而购买自行车，要将BikeBuyer字段作为预测列。神经网络用于预测年收入，需要将YearlyIncome设置为预测字段。有时

6、候用于预测的输入字段太多，会耗费大量训练时间，可以使用FeatureSelection组件筛选对预测字段影响较大的字段。从Modeling中将FeatureSelection字段拖出来，连接到神经网络模型的组件后面，然后点击上方的ExecuteSelection。 FeatureSelection模型训练后在管理区出现模型，右击模型，选Browse可查看模型内容。模型从12个字段中选出了11个字段，认为这11个字段对年收入的影响比较大，所以我们只要用这11个字段作为输入列即可。将模型从管理区拖入

7、数据流设计区，替换原来的FeatureSelection组件。4. 建模加入NearalNet和CHAID模型组件，在CHAID组件设置中，将Mode项设为”Launchinteractivesession”。然后点上方的绿色箭头执行整个数据流。Clementine在训练CHAID树时，会开启交互式会话窗口，在交互会话中可以控制树生长和对树剪枝，避免过拟合。如果确定模型后点上方黄色的图标。完成后，在管理区又多了两个模型。把它们拖入数据流设计区，开始评估模型。5. 模型评估修改抽样组件，将Mode

8、改成“DiscardSample”，意思是抛弃之前用于训练模型的那70%数据，将剩下30%数据用于检验。注意种子不要更改。我这里只检验CHAID决策树模型。将各种组件跟CHAID模型关联。执行后，得到提升图、预测准确率表……6. 部署模型Export组件都可以使用Publish发布数据流，这里会产生两个文件，一个是pim文件，一个是par文件。pim文件保存流的所有信息，par文件保存参数。有了这两个文件就可以使用clemrun.exe来执行流，clemrun.exe是Clem

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 17



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

clementine使用手册

clementine使用手册

相关文章

相关标签