资源描述:
《机器学习基本算法介绍(提交版).ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、主讲人weibo罗青@小青青_Lo机器学习与数据挖掘基本算法介绍sina目录1234监督学习模型算法模型检验和评估优化算法数据筛选与预处理监督学习算法算法原理代码应用1234神经网络决策树贝叶斯SVM优缺点学习系统两大步骤:获取经验和学以致用学习系统模型应对外部环境的刺激输入,在实践的过程中不断学习,获取经验知识,并且运用我们所学到的经验知识指导我们日常生活实践,通过实践效果的反馈,也就是在实践过程中获得经验教训,从而不断更新我们的阅历知识,在以后的生活中,将自己的经验知识学以致用。监督学习模型以鸿翔买西瓜为例样本:西瓜输入:特征向量(大小、色泽、声响、产地)输出:甜不甜,
2、水分多不多判断西瓜好坏依据:以往买西瓜的经验教训训练数据:特征向量目标向量测试数据:特征向量输出向量神经网络拓扑结构图x1y1输出层(k)隐藏层(j)输入层(i)xiykymxn…………ojo1op…输入:特征向量(x1,x2,…xi,…xn)输出:结果向量(y1,y2,…yk,…ym)BP神经网络环境实践学习知识库执行与评价输入向量网络权阵结点阈值输出向量目标向量误差改正激励函数训练二值函数S形函数双曲正切函数更新知识库返回重新实践学习学习模型——获取知识(经验方法)神经网络模型——获取知识(经验方法)输入层隐含层输出层神经网络应用实例—图像分类航空影像图分类结果图输
3、入特征向量:第i分量表示样本多边形第i波段的平均灰度值(RGB)(R1,G1,B1)(R2,G2,B2)(R3,G3,B3)…(Rn,Gn,Bn)---特征向量输出向量:第k分量表示样本多边形属于第k类的概率(1,0,0,0)(0,1,0,0)(1,0,0,0)---训练样本目标向量(0.5,0.2,0.6,0.3)(0.13,0.88,0.12,0.4)---测试样本实际输出神经网络应用实例---新闻分组主题关键词体育球类、比赛、NBA、国足、超级丹…娱乐八卦、狗仔、绯闻、时尚、电影…财经股票、牛市、开盘、银行、通货膨胀…女性美容、瘦身、家居、感情、育儿…输入特征向量:每
4、一个关键词在文中出现频次组成特征向量(23,18,20,30,10,0,4,2,3,….)输出向量:第k个分量是新闻稿属于第k个主题的概率训练目标向量:(1,0,0,0)实际输出:(0.5,0.6,0.7,0.2)BP神经网络代码实现决策树应用实例---给高鑫找对象性别年龄长相品性NO女男NO90后非90后NONOYES漂亮一般良好一般决策树算法算法思想寻找合适变量,使得拆分的两个数据集合在混杂程度上能够尽可能小。熵意义:描述集合的混杂度公式:entropy=信息增益意义:当前熵与两个新群组经加权平均后的熵之间的差值。公式:gain=ent-决策树代码[性别,年龄,长相,品
5、性]A[女,20,良好,一般]yesB[女,24,漂亮,良好]yesC[女,26,一般,良好]noD[女,28,漂亮,良好]noE[男,22,漂亮,良好]no贝叶斯---以疾病诊断为例贝叶斯公式P(A
6、B)=P(A)P(B
7、A)/P(B)P(Disease
8、Symptom)=P(Disease)*P(Symptom
9、Disease)/P(Symptom)先验概率根据以往的经验和分析得到的概率患病概率P(Disease)和显现某种症状P(Symptom)通过统计病例库获得后验概率得到“结果”的信息后重新修正的概率P(Symptom
10、Disease)通过统计确诊病例库患某种病显
11、现某种症状的概率获得前提假设(朴素贝叶斯)各个特征之间应该是相互独立的如果疾病1显现症状A时,很大可能显现症状B,则症状AB之间就是相互依赖的关系。朴素贝叶斯—垃圾邮件过滤问题描述给定一封邮件,判定它是否属于垃圾邮件前提假设:各单词之间相互独立公式推导P(h+
12、D)=P(h+)*P(D
13、h+)/P(D)P(h-
14、D)=P(h-)*P(D
15、h-)/P(D)P(D
16、h+)=P(d1,d2,..,dn
17、h+)P(D
18、h+)=P(d1
19、h+)*P(d2
20、d1,h+)*P(d3
21、d2,d1,h+)*..P(D
22、h+)=P(d1
23、h+)*P(d2
24、h+)*P(d3
25、h+)*..P(di
26、
27、h+)为单词di在垃圾邮件中出现的频率支持向量机--SVM基本原理—通过一些支持向量(H1、H2上的点数据)确定一个分类平面H,使得数据分成两类,甚至多类。优点---适用小样本,高维特征数据分类各监督学习算法比较贝叶斯决策树神经网络SVM是否支持增量式学习支持不支持支持不支持黑盒or白盒解析性好解析性好黑盒黑盒抗噪性较好较好较好不好能否能进行特征组合不能较好不能较好能能能否处理特征间的依赖关系不能较好能较好可以可以线性or非线性非线性线性非线性非线性时间效率快较快慢慢空间效率一般较多一般一般最大优势高效率,具有一