资源描述:
《数据挖掘与Clementine使用培训电信》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘与Clementine使用培训北京瑞斯泰得数据技术开发有限公司7/16/2021一、数据挖掘概述什么是数据挖掘数据挖掘的实现路线和流程数据挖掘方法论——CRISP-DM1www.broadtarget.com为什么进行数据挖掘?商业观点业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值客户信息数据客户交易行为数据客户反馈数据网络数据……计算机变得越来越便宜、功能却越来越强大商业竞争越来越激烈,对客户了解越多就意味着机会越大2www.broadtarget.com为什么进行数据挖掘?技术观点业务中的数据量呈现指数增长(GB/小时)传统技术难以从这些大量数据中发现有价值的规律
2、数据挖掘可以帮助我们从大量数据中发现有价值的规律TheDataGapTotalnewdisk(TB)since1995NumberofanalystsFrom:R.Grossman,C.Kamath,V.Kumar,“DataMiningforScientificandEngineeringApplications”3www.broadtarget.com一个市场营销的例子在数据中发现有价值的规则或者模式女性对市场活动做出回应,男性对市场活动不做出回应,和年龄无关4www.broadtarget.com一个市场营销的例子数据变的复杂会如何?女性对市场活动做出回应,老年男性也可能对市场活动做出
3、回应5www.broadtarget.com一个市场营销的例子数据挖掘可以从异常复杂的数据中发现规律通过数据挖掘发现回应的5条规则:1、如果收入大于29622,有孩子,并且孩子的数量小于等于2,那么对市场活动会回应……通过数据挖掘发现不回应的5条规则:1、如果收入小于12640.3,并且有一个孩子,那么对市场活动不会回应……6www.broadtarget.com数据挖掘收益分析向60%的客户发信,得到了90%的收益数据挖掘的意义7www.broadtarget.com利润分析图8www.broadtarget.com数据挖掘效果模拟分析数据挖掘以前数据挖掘以后差别发信的数量1,000,00
4、0750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的收入$125$125$0总收入$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000目的:发现新客户(使响应率从1%提高到1.2%)9www.broadtarget.com什么是数据挖掘?不同的定义从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程从大量数据中自动化(或者半自动化)的发
5、现有价值规律的过程数据挖掘的其他名称数据库内知识发现(KDD-Knowledgediscoveryindatabases)数据/模式分析商业智能人工智能……10www.broadtarget.com数据挖掘的起源来源于机器学习/人工智能、模式识别、统计学和数据库传统技术的局限性巨量的数据高维数据数据分布不理想机器学习/模式识别统计学数据挖掘数据库系统11www.broadtarget.com数据挖掘面临的挑战海量数据高维数据数据复杂性数据质量问题数据所有权和分布隐私问题12www.broadtarget.com数据挖掘方法论—项目顺利实施的保证商业理解数据理解数据准备建立模型模型评估模型发布
6、13www.broadtarget.com商业理解商业理解数据理解数据准备建立模型模型评估结果发布确定商业目标形势评估确定数据挖掘目标制定项目计划背景商业目标成功标准拥有资源需求、假定和限制风险和偶然性专业术语成本和收益数据挖掘目标数据挖掘成功标准项目计划工具和方法评估14www.broadtarget.com数据理解商业理解数据理解数据准备建立模型模型评估结果发布收集原始数据数据描述数据探索性分析数据质量描述数据收集报告数据描述报告探索性数据分析报告数据质量报告15www.broadtarget.com数据准备商业理解数据理解数据准备建立模型模型评估结果发布选择数据确定分析包含/剔除数据数
7、据集数据集描述数据清理数据清理报告数据重构生成新的变量(字段)生成新的记录整合数据合并相关数据格式化数据改变数据格式,适应分析16www.broadtarget.com建立模型商业理解数据理解数据准备建立模型模型评估结果发布选择建模技术产生检验设计建立模型评价模型模型技术模型假设检验设计参数设定建模模型评价参数设定的修订模型描述17www.broadtarget.com模型评估商业理解数据理解数据准备建立模型