数据挖据模型-算法分析第二课

数据挖据模型-算法分析第二课

ID:25760526

大小:50.70 KB

页数:10页

时间:2018-11-22

数据挖据模型-算法分析第二课_第1页
数据挖据模型-算法分析第二课_第2页
数据挖据模型-算法分析第二课_第3页
数据挖据模型-算法分析第二课_第4页
数据挖据模型-算法分析第二课_第5页
资源描述:

《数据挖据模型-算法分析第二课》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖据模型-算法分析第二课第2课:生成目标邮件方案AdventureWorks的市场部希望通过向特定客户发送邮件的方式来提高销售量。公司希望通过调查已知客户的特性来找到可应用于潜在客户的模式。公司希望使用已发现的模式来预测哪些潜在客户最有可能购买自己的产品。此外,市场部还希望在公司数据库的现有客户当中发现所有逻辑分组,例如具有相似的人数统计标准和购买模式的客户。公司的数据库AdventureWorksDW包含一个现有客户列表和一个潜在的新客户列表。在本课程中,您将创建一个目标邮件方案。完成本课程中的任务之后,您便会具有:·一组挖掘模型,这些模型能够提供潜在客户

2、列表中最有可能购买产品的客户的建议。·当前客户的聚类分析。若要完成本课程中的任务,您需要使用MicrosoftNaiveBayes算法、Microsoft决策树算法和Microsoft聚类分析算法(AnalysisServices–数据挖掘)。本课程包含以下主题:·创建目标邮件挖掘模型结构(数据挖掘教程)创建目标邮件方案的第一步是使用BusinessIntelligenceDevelopmentStudio中的数据挖掘向导创建新的挖掘结构和决策树挖掘模型。在本教程中,您将创建数个基于这种初始挖掘结构的模型。第一个模型将在您完成该向导时与结构一起创建,且基于Mic

3、rosoft决策树算法。有关详细信息,请参阅:数据挖掘向导(AnalysisServices-数据挖掘),数据挖掘设计器,Microsoft决策树算法创建用于目标邮件方案的挖掘结构1.在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。4.在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft决策树”。注意:如果收到警告,告知无法找到数据挖掘算法,则项目属性可能配

4、置不正确。当项目尝试从AnalysisServices服务器检索数据挖掘算法列表,但却无法找到服务器时,就会出现此警告。默认情况下,BIDevelopmentStudio会将本地主机用作服务器。如果要使用其他实例或命名实例,则必须更改项目属性。5.单击“下一步”。6.在“选择数据源视图”页上,请注意已默认选中AdventureWorksDW。在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。7.单击“下一步”。8.在“指定表类型”页上,选中vTargetMail表旁边“事例”列中的复选框,再单击“下一步”。9.在“指定定型数据”页上,确保已选中C

5、ustomerKey列旁边Key列中的复选框。如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。10.选中BikeBuyer列旁边的“输入”和“可预测”。11.单击“建议”打开“提供相关列建议”对话框。只要选中至少一个可预测属性,即可启用“建议”按钮。“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。值大于0.05的列将被自动选中,以包括在模型中。1.阅读建议,然后单击“取消”忽略建议并保留向导设置的原始值。注意:如果单击“确定”,将使用所有列出的建议,并将选定的列标记为向导中的输入列。

6、如果仅同意其中的某些建议,则必须手动更改值。2.选中以下各列旁边的“输入”复选框:·Age·CommuteDistance·EnglishEducation·EnglishOccupation·FirstName·Gender·GeographyKey·HouseOwnerFlag·LastName·MaritalStatus·NumberCarsOwned·NumberChildrenAtHome·Region·TotalChildren·YearlyIncome3.单击“下一步”。4.在“指定列的内容和数据类型”页上,单击“检测”以运行对数值数据进行取样并确

7、定数值列是否包含连续或离散值的算法。例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金范围(例如1=<$25,000;2=从$25,000到$50,000)。5.单击“检测”后,请查看“内容类型”和“数据类型”列中的各项;如有必要,请进行更改,以确保设置与下表所示一致。通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。例如,GeographyKey应作为文本处理,因为对此标识符进行数学运算是不对的。列内容类型数据类型AgeContinuousLongBikeBuyerDiscrete

8、LongCommuteD

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。