19_21分类和预测

19_21分类和预测

ID:32290366

大小:1.52 MB

页数:49页

时间:2019-02-02

19_21分类和预测_第1页
19_21分类和预测_第2页
19_21分类和预测_第3页
19_21分类和预测_第4页
19_21分类和预测_第5页
资源描述:

《19_21分类和预测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、LOGO第七课(第19-21课时)预测和分类•分类和预测的基本概念•分类和预测的基本方法•模型的评价方法•相关的数据集处理方式•更快的预测方式数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)前情回顾分析单个变量:各种方法分析多个变量:各种方法回归分析:确认变量乊间的关系基于模拟的方法:重抽样–可对仸何统计量迚行–1.显著性的检验–2.置信区间(丌确定性)的度量数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)回归分析练习:回归分析:类似R的方法>>importpandasaspd>>importstatsmodels.formula.apias

2、sm–tip~total_bill+size>>result=sm.ols(formula="tip~total_bill+size",data=tips).fit()>>printresult.params>>printresult.summary()数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)预测不分类:任务描述理解预测和分类的目的了解各种预测和分类算法掌握如何根据因变量和自变量的类型来确定模型和算法掌握对模型的评价方法理解和了解对数据集的操作数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)分类和预测什么是分类?–用一部分属性预测另

3、一部分属性(类别属性),例如,•预测肿瘤是良性还是恶性•区分信用卡交易是否是盗刷•将新闻划分为财经、天气、娱乐、体育,等•文本的情感分析什么是预测?–根据自变量(解释变量)给出因变量(预测变量)的估计值,例如,•预测股票的收益率•预测信用卡被盗刷的概率所以,分类和预测本质上一回事–当因变量为类别型(或分类、因素)时,特指分类–当因变量(预测变量)为数值型,也可按规则转换为类别型数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)分类和预测:构建方法TidAttrib1Attrib2Attrib3ClassLearning1YesLarge125KNoalgorithm2

4、NoMedium100KNo3NoSmall70KNo4YesMedium120KNoInduction5NoLarge95KYes6NoMedium60KNo7YesLarge220KNoLearn8NoSmall85KYesModel9NoMedium75KNo10NoSmall90KYes10ModelTrainingSetApplyTidAttrib1Attrib2Attrib3ClassModel11NoSmall55K?12YesMedium80K?13YesLarge110K?Deduction14NoSmall95K?15NoLarge67K?10TestSet数据分析和

5、数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)预测(分类)的常见方法回归类的预测和分类数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)回归类的预测和分类:线性回归变量类型:–数值型~数值型+数值型求解算法:–最小二乘法OLS–或者最速下降法预测方法:–利用回归方程输入新X得到新YPython模块:–fromsklearnimportlinear_model–clf=linear_model.LinearRegression()–clf.fit(x,y)–clf.predict(newx)数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象

6、)回归类的预测和分析:线性回归寻找目标函数的最优解:最速下降法:当特征(预测变量)数目比较多的时候更高效–步长太大:可能丌收敛–步长太小:收敛慢–最速上升法同理数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)回归类的预测和分类:Logistic回归变量类型:Y=1的概率–二值型响应变量~数值型变量优势比p优化算法:ln()0j1jjX1–准确率–梯度上升法Python模块:–sklearn.linear_model.LogisticRegression数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)回归类预测:Logisti

7、c回归数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)回归类的预测和分析:广义线性模型标准线性模型:pY0j1jXj广义线性模型:pgX()Y0j1jj连接函数:条件均值的函数softmax回归,Logistic回归的扩展,类别型因变量可以有多个取值数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)回归类的预测和分类:泊松回归变量类型:–计数型变量(泊松分布)n

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。