电子商务数据挖掘常用公式和算法

电子商务数据挖掘常用公式和算法

ID:36780703

大小:443.32 KB

页数:5页

时间:2019-05-15

电子商务数据挖掘常用公式和算法_第1页
电子商务数据挖掘常用公式和算法_第2页
电子商务数据挖掘常用公式和算法_第3页
电子商务数据挖掘常用公式和算法_第4页
电子商务数据挖掘常用公式和算法_第5页
资源描述:

《电子商务数据挖掘常用公式和算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、电子商务数据挖掘常用公式和算法几何平均数1nxxxx(xxxx)nlg1[1(lgxlgx...lgx)]123n123n12nn2总体方差22(x)/N标准方差22把开平方根就得到标准方差(x)/N随机变量的概率分布随机变量的概率分布可以用下面的公式表示:f(x)P(Xx)标准差标准化标准差标准化是将各个纪录值减去纪录值的平均值,再除以纪录值的标准差,即:xxijiaxijSi其中,x为平均值,其表达式为:ian1xiaxijnj1设Si是标准差,

2、有:n21Si(xijxia)nj1极差标准化极差标准化是数据标准化的另外一种常用方式。对纪录值进行极差标准化变换是将各个纪录值减去纪录值的平均值,再除以纪录值的极差,也就是数据集中的最大值和最小值之间的差距,即:xxijiaxijmax(x)min(x)ijij极差正规化极差正规化又是另外一种常用的数据标准化方式,可以把所有的观测值转化到[0,1]的区间之内。对纪录值进行极差正规化变换是将各个纪录值减去纪录值的极小值,再除以纪录值的极差,即:xmin(x)ijijxijmax(x)min(x)i

3、jij相似度公式ABsimilarity(A,B)cos(A,B)

4、

5、A

6、

7、*

8、

9、B

10、

11、关于F的通用公式2precisionrecallF(1)2precisionrecall当=1时,所表示的就是F1的公式precisionrecallF21precisionrecallPR值PR值的简化公式是:PR(v)PR(u)vBL(v)u在公式中PR(u)、PR(v)是页面u和v的PR值,L(v)是页面v的外链数,B是链向页u面u的所有页面集合。消除重复记录的算法消除重

12、复记录的算法有优先队列算法,SNM算法(Sorted-NeighborhoodMethod,近邻排序算法),MPN算法(Multi-PassSorted-Neighborhood,多趟近邻排序算法)等:优先队列算法通过减少记录比较的次数,提高匹配的效率,而且该算法几乎不受数据规模的影响,能很好地适应数据规模的变化。但是算法复杂度比较高,实现相对困难。SNM近邻排序算法采用滑动窗口的方法,每次只比较窗口中的w条记录,提高匹配效率;采用滑动窗口也提高了比较速度,只需要进行w×N次比较识别重复记录的精度很大程度上依赖于排序

13、所选择的关键字,而且滑动窗口的大小w的选取很难控制。MPN多趟近邻排序算法精确度高,但是不能正确地检测出数据库中没有包含主键域的记录。二元混淆矩阵(ConfusionMatrix)我们通常用二元混淆矩阵来判定一个二元分类方法是否有效。请看下图:图II-1混淆矩阵示意图在图II-1中各个数据的含义解释如下:TP(TruePositive):预测值和真实值相一致都为1的个数。FP(FalsePositive):预测值为1而真实值为0的个数。FN(FalseNegative):预测值为0而真实值为1的个数。TN(Tr

14、ueNegative):预测值和真实值相一致都为0的个数。ROC分类器效果评估下图是一张ROC曲线图,ROC曲线(receiveroperatingcharacteristiccurve)是受试者工作特征曲线的缩写,该曲线常用于医疗临床诊断,数据挖掘兴起后也被用于分类器的效果评价。图II-2ROC曲线图图II-2是一张很典型的ROC曲线,从图中可以看出该曲线的横轴是FPR(falsepositiverate),纵轴是TPR(Truepositiverate)。前面说过,分类中比较关心的都是正类的预测情况,而且分类结果常常

15、是以概率的形式出现的,设定一个阈值,如果概率大于这个阈值那么结果就会是1。而ROC曲线的绘制过程就是根据这个阈值的变化而来的,当阈值为0时,所有的分类结果都是1,那么TPR=1,而FPR也是1,这样曲线达到终点。随着阈值的不断增大,被预测为1的个数会减少,TPR和FPR同时减少,当阈值增大到1时,没有样本被预测为1,此时TPR和FPR都为0。由此可知,TPR和FPR是同方向变化的,这点在上图中可以得到体现。由于我们常常要求一个分类器的TPR尽量高,FPR尽量小,表现在图中就是曲线离纵轴越近,预测效果就越好。为了更具体化,

16、人们也通过计算AUC(ROC曲线下方的面积)来评判分类器效果,一般AUC超过0.7就说明分类器有一定效果。在图II-2中的ROC曲线中,曲线下方的面积AUC数值超过了0.7,所以分类器是有一定效果的。Lift曲线分类器判定Lift曲线也是一个用来判定二元分类器好坏的方式。Lift曲线的绘制方法与ROC曲线是一样的,不

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。