数据挖掘模型基础知识培训

数据挖掘模型基础知识培训

ID:12928434

大小:166.50 KB

页数:47页

时间:2018-07-19

数据挖掘模型基础知识培训_第1页
数据挖掘模型基础知识培训_第2页
数据挖掘模型基础知识培训_第3页
数据挖掘模型基础知识培训_第4页
数据挖掘模型基础知识培训_第5页
资源描述:

《数据挖掘模型基础知识培训》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘模型基础知识培训数据挖掘模型基础知识培训悦岚数猎悦岚(上海)数据服务有限公司二〇一六年三月DataShire目前有十个数据挖掘算法建模,包括:离散化,量化,线性回归,逻辑回归,里脊回归,ALS推荐,决策树,支持向量机,朴素贝叶斯,K-Means聚类,关联规则。下文将对各模型进行介绍,共十一个模型一一展开:离散化模型介绍离散化方法(discretizationmethod)把无限空间中无限的个体映射到有限的空间中去,以此提高算法的时空效率。即把连续型数据切分为若干“段”,是数据分析中常用的手段。切分的原则有等距,等频,优化,或根据数据特点而定。进行离散化的原因:①

2、算法需要②离散化可以有效地克服数据中隐藏的缺陷③有利于对非线性关系进行诊断和描述即使在连续型自变量和目标变量之间的关系比较明确,例如可以用直线描述的情况下,对自变量进行离散处理也有若干优点。一是便于模型的解释和使用,二是可以增加模型的区别能力。离散化模型介绍DataShire中的离散化将连续型变量的取值范围均匀划成n等份,每份的间距相等。模型运用思路:一个人的年龄一般被认为是连续变量,因为年龄是随着时间而逐渐增加的,为了区分不同年龄段的客户群体,对不同年龄段的客户进行分析,我们需将客户年龄进行分段,这就需用离散化方法进行处理,我们可以将客户年龄段分成五组,1-20年龄段

3、的为一组,21-40年龄段的为一组,…,81-100年龄段的为一组。我们平台采用此种方法。只需设置好最大离散区间数目,就可将连续数据分成对应的组进行标记。(此例只是一种思路,不可死板硬套)注:模型选择要具体情况具体对待,不可随便使用,要经过对比,筛选出比较合适的模型。否则会对决策造成重大负面影响。DataShire中离散化模型属性参数设置:最大离散区间数目:连续数据的分段数。例如,设为n,则将连续数据分成n个区间,每个区间取相同的值,映射(压缩)到[0,1]区间。离散化模型介绍量化模型介绍量化(quantify)是将社会现象与人类行为用数量方式展现出来,进而搜集数据、分

4、析、验证与解释的研究方法的总称。在综合评价时,会遇到一些定性指标,通常总希望能给予量化,使量化后的指标可与其它定量指标一起使用。古典线性回归模型中的经济变量都是定量的变量,但是在经济中也存在许多定性的变量,如职业、性别、战争、自然灾害、季节等,它们对某些经济变量也有显著影响,那么如何将这些定性变量引入模型呢?定性变量一般量化都比较困难,但大多定性变量都可区分为不同的状态.例如学生可区分为小学生、中学生、大学生、硕士研究生、博士生;战争可区分为发生与不发生;季节可区分为春、夏、秋、冬等等。量化模型介绍量化模型介绍模型运用思路:features中有一个描述距离范围的字段,包

5、含0-1miles,1-2miles,2-5miles,5-10miles。对于这样的字段是不能直接在模型中运行的,这就需将其量化表示。根据上述量化方法,我们假设他们一一映射为1,2,7><3,4,即0-1miles映射为1,1-2miles映射为2,2-5miles映射为<3,5-10miles映射为4。如果将量化区间的最大值设为1,量化区间的最小值设为0,那么最终按照压缩比例将0-1miles,1-2miles,2-5miles,5-10miles量化为0.25,0.5,0.75,1。(此例只是一种思路,不可死板硬套)注:模型选择要具体情况具体对待,不可随便使用,要

6、经过对比,筛选出比较合适的模型。否则会对决策造成重大负面影响。DataShire中量化模型属性参数设置:??根据数据情况,在右侧PROPERTIES面板中基于模型介绍配置模型的属性参数。??量化区间的最大值:即是你所希望得到的量化数值的取值范围的上限。??量化区间的最小值:即是你所希望得到的量化数值的取值范围的下限。量化模型介绍梯度下降算法梯度下降法通过迭代更新来逐步进行的参数优化方法,最终结果为局部最优。通过多次运算可以达到全局最优。θi会向着梯度最小的方向进行减少。θi表示更新之前的值,-后面的部分表示按梯度方向减少的量,α表示步长,也就是每次按照梯度减少的方向变化

7、多少。梯度下降算法线性回归模型介绍线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y=W�<39;X+e,其中y为因变量,X为自变量向量,W为权重向量,e为误差服从均值为0的正态分布。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其位置参数的模型更容易拟合,而且产生的估

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。