机器学习中关于模型评估方法总结

ID：13248730

大小：676.72 KB

页数：20页

时间：2018-07-21

资源描述：

《机器学习中关于模型评估方法总结》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、1模型评估我们在建立模型之后，接下来就要去评估模型，确定这个模型是否有用。在实际情况中，我们会用不同的度量去评估我们的模型，而度量的选择取决于模型的类型和模型以后要做的事。1.1二分类评估二分类模型的评估。1.1.1业界标准叫法二分类评估；分类算法。1.1.2应用场景信息检索、分类、识别、翻译体系中。1.1.2.1新闻质量分类评估对于新闻APP，其通过各种来源获得的新闻，质量通常良莠不齐。为了提升用户体验，通常需要构建一个分类器模型分类低质新闻和优质新闻，进而进行分类器的评估。1.1.1.1垃圾短信分类评估垃圾短信已经日益成

2、为困扰运营商和手机用户的难题，严重影响人们的生活、侵害到运营商的社会公众形象。构建二分类器模型对垃圾短信和正常短信进行分类，并进行二分类评估。1.1.2原理1.1.2.1混淆矩阵混淆矩阵（ConfusionMatrix）。来源于信息论，在机器学习、人工智能领域，混淆矩阵又称为可能性表格或错误矩阵，是一种矩阵呈现的可视化工具，用于有监督学习，在无监督学习中一般叫匹配矩阵。混淆矩阵是一个N*N的矩阵，N为分类（目标值）的个数，假如我们面对的是一个二分类模型问题，即N=2，就得到一个2*2的矩阵，它就是一个二分类评估问题。混淆矩阵

3、的每一列代表预测类别，每一列的总数表示预测为该类别的数据的数目，每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的实例的数目。图12*2混淆矩阵图阳性（P，Positive）：阴性（N，Negative）：真阳性（TP，TruePositive）：正确的肯定，又称“命中”（Hit）；被模型预测为正类的正样本。真阴性（TN，TrueNegative）：正确的否定，又称“正确拒绝”（correctrejection），被模型预测为负类的负样本。伪阳性（FP，falsePositive）：错误的肯定，又称“假警报”（fa

4、lsealarm）；被模型预测为负类的正样本。伪阴性（FN，falseNegative）：错误的否定，又称“未命中”（miss）；被模型预测为正类的负样本。灵敏度（Sensitivity）或真阳性率（TPR，TureNegativeRate）：又称“召回率”（recall）、命中率（HitRate）。在阳性值中实际被预测正确所占的比例。TPR=TP/P=TP/(TP+FN)伪阳性率（FPR，falsepositiverate）：又称“假正类率”、“错误命中率”、“假警报率”。FPR=FP/(FP+TN)特异度（SPC，Spe

5、cificity）或真阴性率：在阴性值中实际被预测正确所占的比例。SPC=TN/N=TN/(FP+TN)=1-FPR假发现率(FDR,falsediscoveryrate)：FDR=FP/(FP+TP)=1-TPR准确度（ACC）：预测正确的数占样本数的比例。ACC=(TP+TN)/(P+N)阳性预测值(PPV,positivepredictivevalue)或精度(precision)：阳性预测值被预测正确的比例。PPV=TP/(TP+FP)阴性预测值(NPV,negativepredictivevalue)：阴性预测值被

6、预测正确的比例。NPV=TN/(TN+FN)图2一个模型的2*2混淆矩阵图示例我们可以看出，这个模型的准确度是88%，阳性预测值比较高而阴性预测值较低，对于灵敏度和特异度也是相同。这是因为我们选的阈值导致的，若我们降低阈值，这两对数值就会变得接近。1.1.1.1ROC曲线ROC曲线（ReceiverOperationCharacteristicCurve），中文名叫“接受者操作特征曲线”，其实是从混淆矩阵衍生出来的图形，其横坐标是Specificity（特异度），纵坐标是Sensitivity（灵敏度）。图3ROC曲线图随着

7、阈值的减小，更多的值归于正类，敏感度和特异度也相应增加。而那条45度线是一条参照线，ROC曲线要与这条参照线比较。如果我们不用模型，直接把客户分类，我们得到的曲线就是这条参照线，然而，我们使用了模型进行预测，就应该比随机的要好，所以，ROC曲线要尽量远离参照线，越远，我们的模型预测效果越好。ROC曲线反映了错误命中率和灵敏度之前权衡的情况，即灵敏度随着错误命中率递增的情况下，谁增长的更快，快多少。灵敏度增长的越快，曲线越往上屈，反映了模型的分类性能越好。当正负样本不平衡时，这种模型评价方式比起一般的精确度评价方式好处尤为明显

8、。ROC曲线快速爬向左上，表示模型准确预测数据。一般情况下，ROC曲线都应该处于参照线的上方。1.1.1.1AUC（ROC曲线下面积AreaUnderROCCurve）图3AUC曲线图ROC曲线是根据与45度参照线比较判断模型的好坏，但这只是一种定性的分析，如果需要定量的计算判断，就用到了

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 20



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

机器学习中关于模型评估方法总结

机器学习中关于模型评估方法总结

相关文章

相关标签