资源描述:
《基于聚类挖掘技术在电子商务网站中的应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于聚类挖掘技术在电子商务网站中的应用摘要:数据挖掘技术是一种新的信息处理技术。其目的是从海量数据中抽取潜在的,有价值的数据规律或数据模型。通过数据挖掘技术对电子商务网站数据的分析处理,结合客户关系管理策略,建立反映客户个性特征的客户特征模型,建立动态适应性的服务机制,有效地为不同类型的客户进行个性化服务。该文主要将聚类技术应用到电子商务网站,通过建立商品数据库,利用频繁项集的方法得到客户聚类向量,计算出客户的相异度矩阵,用聚类技术实现客户的分类。关键词:数据挖掘;客户特征;聚类技术中图分类号:TP311文献标识码:A文章编号:100
2、9-3044(2014)05-1147-031聚类分析算法的简述聚类分析(ClusterAnalysis)是数理统计中专门研究“物以类聚”的一种方法,它具有以下三个要点:选定某种距离度量作为样本间的相似性度量;确定某个评价聚类结果的准则函数;给定某个初始分类,然后用迭代算法找出使准则函数取极值的最好聚类结果。关于数据挖掘屮的聚类算法有很多种[32],其中最经典的就是属于划分方法的K-means(K-平均值)的算法。2聚类分析算法的数据类型聚类算法通常都采用以下两种数据结构1)数据矩阵:这种数据结构是关系表的形式,用P个变量(属性)来表
3、现n个对象,可以看成nXp(n个对象Xp个变量)的矩阵[xll…xlf…xlp?…?…・?xil…xif….xip?…?…?xnl…xnf•••.xnp]2)相异度矩阵:或称对象-对象结构,存储n个对象两两Z间的近似性,表现形式是一个nXp的矩阵。[Od(2,1)Od(3,1)d(3,2)0???d(n,1)d(n,2)・・・・・・・0]在这里,d(i,j)是对象i和j之间相异性的量化表示,当对象i和j越相似,其值越接近0,两个对象越不同,其值越大。在经过数据标准化处理后,对象间的相异度是基于对象间的距离來计算的。最常用的距离度量方法
4、是欧几里得距离,它的定义如下:[d(i,j)二x订-xjl2+xi2-xj22+・・・+xip-xjp2]这里的i=(xil,xi2,…,xip)和j=(xjl,xj2,…,xjp)是两个p维的数据对象。3K-means算法的工作原理K-means算法[33,34]由J.B.MacQueen在1967年提出,常采用误差平方和准则函数作为聚类准则函数。K-means算法的主要过程:首先随机从数据集中选取K个对象作为初始聚类中心,然后计算剩下的各个其它样本对象到聚类中心的相似度(距离),分别将它们分配给离它最近的那个聚类中心所在的类。计算
5、新形成的每一个聚类的数据对象的平均值來得到新的聚类中心,不断重复这个过程直到标准测度函数J收敛为止(如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数Jc已经收敛,算法结束)。K-means的算法过程:输入:聚类个数k和包含n个对象的样木集。输出:满足方差最小标准的k个聚类。方法:1)从n个数据対象中任意选择k个対象作为初始聚类中心;2)循环下述流程(3)到(4),直到每个聚类不再发生变化为止;3)根据每个聚类中所有对象的均值(中心对象),计算样本集中每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分将
6、每个对象重新赋给最相似的簇;4)重新计算每个(有变化)聚类的均值。4聚类挖掘在电子商务网站屮的应用利用聚类方法可以对客户在各商品特征上的重视度情况进行分析,并将商品特征重视度类似的客户分到相同的类别中去,进而从中找出客户Z间未知的现象及关系,智能地在各种商品特征中找出最适合客户所需的商品,减少客户自己寻找商品特征上所花的时间及盲目性,避免客户迷航。现通过一个例子来说明如何在电子商务平台屮使用聚类技术来实现客户分类和商品特征的智能推荐。假设在商品数据库中有客户甲的4次记录,如表1。表1客户甲商品的重视度记录[序号&商品的重视度&第1
7、次&A,C,D,E,F&第2次&B,D,F,G&第3次&A,B,E&第4次&A,D,E,F&]按照关联规则频繁项集的方法找到客户甲对商品重视度的频繁项集以此作为客户甲的进行聚类分类的特征向量,过程如图1,设最小支持度计数为30图1寻找客户甲商品重视度特征项集从以上过程发现客户甲对于商品特征的重视度偏向于{A,E}{D,F},据此可得客户甲的聚类规则向量如表2(a),同理可得到客户乙、丙、丁对于重视度的商品特征偏向和聚类规则向量分别如表2(b),表2(C)和表2(d)o根据欧几里得距离公式,可以计算出四个客户的相异度矩阵
8、,如图2所示。由此可知,甲和丁之间的欧几里得距离最小,所以甲较类似于丁。如果定义将d〈二2的分为一类,按上述方法反复进行,直到达到聚类分类的要求,即可形成客户分类图如图3所示。将所有客户按上述方法聚类后,当某客户进入商品