欢迎来到天天文库
浏览记录
ID:13248730
大小:676.72 KB
页数:20页
时间:2018-07-21
《机器学习中关于模型评估方法总结》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、1模型评估我们在建立模型之后,接下来就要去评估模型,确定这个模型是否有用。在实际情况中,我们会用不同的度量去评估我们的模型,而度量的选择取决于模型的类型和模型以后要做的事。1.1二分类评估二分类模型的评估。1.1.1业界标准叫法二分类评估;分类算法。1.1.2应用场景信息检索、分类、识别、翻译体系中。1.1.2.1新闻质量分类评估对于新闻APP,其通过各种来源获得的新闻,质量通常良莠不齐。为了提升用户体验,通常需要构建一个分类器模型分类低质新闻和优质新闻,进而进行分类器的评估。1.1.1.1垃圾短信分类评估垃圾短信已经日益成
2、为困扰运营商和手机用户的难题,严重影响人们的生活、侵害到运营商的社会公众形象。构建二分类器模型对垃圾短信和正常短信进行分类,并进行二分类评估。1.1.2原理1.1.2.1混淆矩阵混淆矩阵(ConfusionMatrix)。来源于信息论,在机器学习、人工智能领域,混淆矩阵又称为可能性表格或错误矩阵,是一种矩阵呈现的可视化工具,用于有监督学习,在无监督学习中一般叫匹配矩阵。混淆矩阵是一个N*N的矩阵,N为分类(目标值)的个数,假如我们面对的是一个二分类模型问题,即N=2,就得到一个2*2的矩阵,它就是一个二分类评估问题。混淆矩阵
3、的每一列代表预测类别,每一列的总数表示预测为该类别的数据的数目,每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的实例的数目。图12*2混淆矩阵图阳性(P,Positive):阴性(N,Negative):真阳性(TP,TruePositive):正确的肯定,又称“命中”(Hit);被模型预测为正类的正样本。真阴性(TN,TrueNegative):正确的否定,又称“正确拒绝”(correctrejection),被模型预测为负类的负样本。伪阳性(FP,falsePositive):错误的肯定,又称“假警报”(fa
4、lsealarm);被模型预测为负类的正样本。伪阴性(FN,falseNegative):错误的否定,又称“未命中”(miss);被模型预测为正类的负样本。灵敏度(Sensitivity)或真阳性率(TPR,TureNegativeRate):又称“召回率”(recall)、命中率(HitRate)。在阳性值中实际被预测正确所占的比例。TPR=TP/P=TP/(TP+FN)伪阳性率(FPR,falsepositiverate):又称“假正类率”、“错误命中率”、“假警报率”。FPR=FP/(FP+TN)特异度(SPC,Spe
5、cificity)或真阴性率:在阴性值中实际被预测正确所占的比例。SPC=TN/N=TN/(FP+TN)=1-FPR假发现率(FDR,falsediscoveryrate):FDR=FP/(FP+TP)=1-TPR准确度(ACC):预测正确的数占样本数的比例。ACC=(TP+TN)/(P+N)阳性预测值(PPV,positivepredictivevalue)或精度(precision):阳性预测值被预测正确的比例。PPV=TP/(TP+FP)阴性预测值(NPV,negativepredictivevalue):阴性预测值被
6、预测正确的比例。NPV=TN/(TN+FN)图2一个模型的2*2混淆矩阵图示例我们可以看出,这个模型的准确度是88%,阳性预测值比较高而阴性预测值较低,对于灵敏度和特异度也是相同。这是因为我们选的阈值导致的,若我们降低阈值,这两对数值就会变得接近。1.1.1.1ROC曲线ROC曲线(ReceiverOperationCharacteristicCurve),中文名叫“接受者操作特征曲线”,其实是从混淆矩阵衍生出来的图形,其横坐标是Specificity(特异度),纵坐标是Sensitivity(灵敏度)。图3ROC曲线图随着
7、阈值的减小,更多的值归于正类,敏感度和特异度也相应增加。而那条45度线是一条参照线,ROC曲线要与这条参照线比较。如果我们不用模型,直接把客户分类,我们得到的曲线就是这条参照线,然而,我们使用了模型进行预测,就应该比随机的要好,所以,ROC曲线要尽量远离参照线,越远,我们的模型预测效果越好。ROC曲线反映了错误命中率和灵敏度之前权衡的情况,即灵敏度随着错误命中率递增的情况下,谁增长的更快,快多少。灵敏度增长的越快,曲线越往上屈,反映了模型的分类性能越好。当正负样本不平衡时,这种模型评价方式比起一般的精确度评价方式好处尤为明显
8、。ROC曲线快速爬向左上,表示模型准确预测数据。一般情况下,ROC曲线都应该处于参照线的上方。1.1.1.1AUC(ROC曲线下面积AreaUnderROCCurve)图3AUC曲线图ROC曲线是根据与45度参照线比较判断模型的好坏,但这只是一种定性的分析,如果需要定量的计算判断,就用到了
此文档下载收益归作者所有