欢迎来到天天文库
浏览记录
ID:32290366
大小:1.52 MB
页数:49页
时间:2019-02-02
《19_21分类和预测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、LOGO第七课(第19-21课时)预测和分类•分类和预测的基本概念•分类和预测的基本方法•模型的评价方法•相关的数据集处理方式•更快的预测方式数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)前情回顾分析单个变量:各种方法分析多个变量:各种方法回归分析:确认变量乊间的关系基于模拟的方法:重抽样–可对仸何统计量迚行–1.显著性的检验–2.置信区间(丌确定性)的度量数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)回归分析练习:回归分析:类似R的方法>>importpandasaspd>>importstatsmodels.formula.apias
2、sm–tip~total_bill+size>>result=sm.ols(formula="tip~total_bill+size",data=tips).fit()>>printresult.params>>printresult.summary()数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)预测不分类:任务描述理解预测和分类的目的了解各种预测和分类算法掌握如何根据因变量和自变量的类型来确定模型和算法掌握对模型的评价方法理解和了解对数据集的操作数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)分类和预测什么是分类?–用一部分属性预测另
3、一部分属性(类别属性),例如,•预测肿瘤是良性还是恶性•区分信用卡交易是否是盗刷•将新闻划分为财经、天气、娱乐、体育,等•文本的情感分析什么是预测?–根据自变量(解释变量)给出因变量(预测变量)的估计值,例如,•预测股票的收益率•预测信用卡被盗刷的概率所以,分类和预测本质上一回事–当因变量为类别型(或分类、因素)时,特指分类–当因变量(预测变量)为数值型,也可按规则转换为类别型数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)分类和预测:构建方法TidAttrib1Attrib2Attrib3ClassLearning1YesLarge125KNoalgorithm2
4、NoMedium100KNo3NoSmall70KNo4YesMedium120KNoInduction5NoLarge95KYes6NoMedium60KNo7YesLarge220KNoLearn8NoSmall85KYesModel9NoMedium75KNo10NoSmall90KYes10ModelTrainingSetApplyTidAttrib1Attrib2Attrib3ClassModel11NoSmall55K?12YesMedium80K?13YesLarge110K?Deduction14NoSmall95K?15NoLarge67K?10TestSet数据分析和
5、数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)预测(分类)的常见方法回归类的预测和分类数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)回归类的预测和分类:线性回归变量类型:–数值型~数值型+数值型求解算法:–最小二乘法OLS–或者最速下降法预测方法:–利用回归方程输入新X得到新YPython模块:–fromsklearnimportlinear_model–clf=linear_model.LinearRegression()–clf.fit(x,y)–clf.predict(newx)数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象
6、)回归类的预测和分析:线性回归寻找目标函数的最优解:最速下降法:当特征(预测变量)数目比较多的时候更高效–步长太大:可能丌收敛–步长太小:收敛慢–最速上升法同理数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)回归类的预测和分类:Logistic回归变量类型:Y=1的概率–二值型响应变量~数值型变量优势比p优化算法:ln()0j1jjX1–准确率–梯度上升法Python模块:–sklearn.linear_model.LogisticRegression数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)回归类预测:Logisti
7、c回归数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)回归类的预测和分析:广义线性模型标准线性模型:pY0j1jXj广义线性模型:pgX()Y0j1jj连接函数:条件均值的函数softmax回归,Logistic回归的扩展,类别型因变量可以有多个取值数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)回归类的预测和分类:泊松回归变量类型:–计数型变量(泊松分布)n
此文档下载收益归作者所有