机器学习课件

机器学习课件

ID:39200090

大小:1.79 MB

页数:41页

时间:2019-06-27

机器学习课件_第1页
机器学习课件_第2页
机器学习课件_第3页
机器学习课件_第4页
机器学习课件_第5页
资源描述:

《机器学习课件》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、机器学习与python实践讲师:裴得利大纲•机器学习概述•监督学习与无监督学习,特征工程•回归模型•线性回归,Logistic回归•决策树类模型•不同决策树模型,兼谈Bagging,Boosting和Stacking思想•评价体系•评价指标及其误区机器学习概述•常见分类•监督学习•给定数据集并知道其正确的输出,即有反馈•回归(Regression):特征输入连续值输出•分类(Classification):特征输入离散值输出•非监督学习•给定数据集,不知道其正确的输出,无反馈•聚类(Clustering):输入一批样本数据划分为若干簇•关联分析:

2、给定一批记录记录中各项的关联关系监督学习•监督学习•要素:特征,目标值,模型,数据集•目标值=模型(特征

3、模型参数)•模型训练•由训练数据集获取最优模型参数模型•预测•利用已有模型,对未知结果做出预测•老司机的例子•过往的经历(数据集),每条经历的描述(特征),人生经验(模型)•成长(训练过程),教你做人(预测过程)•老司机带你买二手车•分类:这辆车是否值得买;回归:这辆车值多少钱监督学习•Bias–Variancetradeoff•偏差Bias•预测值与真实值的平均偏差•Bias过大:欠拟合underfitting•没有学习到特征值与目标值之间的

4、偏差•方差Variance•同等大小数据集变动导致学习性能的波动•Variance过大:过拟合overfitting•对训练集噪声过于敏感,泛化能力差特征工程•特征•数据的预处理:将样本的属性转化为数据特征,刻画样本•问题:描述那些方面,以及怎样描述•特征工程•时间戳处理•分解成多维度如年、月、日、小时,区分场景•如交通状况(天级别,小时级别),天气预测(月级别,季度级别)•类别属性处理•误区:将类别属性转换成标量,误导模型(排序,平均)•颜色属性:用{1,2,3}表示{红,绿,蓝}特征工程•特征工程•类别属性处理•one-hot编码•颜色属性{红,绿

5、,蓝}用{(1,0,0),(0,1,0),(0,0,1)}表示classsklearn.preprocessing.OneHotEncoder(n_values='auto',categorical_features='all',dtype=,sparse=True,handle_unknown='error')•Hash编码•近似one-hot编码,对特征的每一种取值做hash•缺点•维数爆炸:个性化特征,userid,广告id,商品id,几百万上千万维代码演示one-hot编码特征工程•特征工程•分箱或者分

6、区•特征离散化:数值落入同一分区时能够呈现出共同特征•增强鲁棒性,减少噪声干扰•如时间分组,年龄段分组,位置分组(县乡镇=>区市省)•交叉特征•两个或者更多类别属性组合成一个,比单独两个特征更有意义•常与one-hot编码方式结合•如地理位置服务中(经度,纬度),个性化推荐中(性别,年龄)特征工程•特征工程•特征选择•解决“从哪些方面描述”的问题,领域知识要求强•特征与目标值的相关性,前向/后向特征搜索•特征缩放•回归模型中尤为突出,不同量纲的特征值•如Min-Max缩放classsklearn.preprocessing.MinMaxScaler(f

7、eature_range=(0,1),copy=True)classsklearn.preprocessing.Normalizer(norm=‘l2’,copy=True)大纲•机器学习概述•监督学习与无监督学习,特征工程•回归模型•线性回归,Logistic回归•决策树类模型•不同决策树模型,兼谈Bagging,Boosting和Stacking思想•评价体系•评价指标及其误区监督学习之回归分析•回归分析(Regression)•回归分析是解决预测建模任务时的一种方法,用于研究自变量与因变量之间的关系•典型方法•线性回归LinearRegressi

8、on•Logistic回归LogisticRegression监督学习之回归分析•线性回归•模型表达•特征:对样本的多维度描述•模型参数:•目标值•老司机买二手车•特征:品牌,出厂日期/价格,里程数,外观及内饰的折旧,有无事故•模型参数:每个特征的重要程度(权重)•目标值:二手车估价监督学习之回归分析•线性回归•特征工程的重要性•领域知识:与目标值(因变量)有关的因素•直接特征和挖掘特征•训练数据集和目标函数•训练集:过往二手车销售记录(车的特征,车的价格)•预测集:给二手车一个合理的估价•目标函数:预测越接近真实的越好监督学习之回归分析•线性回归•目

9、标函数•最小平方误差(MSE),最小绝对误差(MAE)•优化方法•最小二乘法,梯度下降类(Ne

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。