欢迎来到天天文库
浏览记录
ID:23338390
大小:52.50 KB
页数:5页
时间:2018-11-07
《一个基于关联规则的商品推荐系统模型》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、一个基于关联规则的商品推荐系统模型电子商务系统中商品推荐技术可以帮助电子商务X站有效地提高商品的销量,对电子商务发展有重要作用。本文分析了商品推荐的流程,结合数据挖掘技术的关联分析技术给出了一个商品推荐模型。关键词:电子商务;关联规则;数据挖掘引言 目前电子商务的发展越来越迅猛,电子商务的规模与结构也越来越复杂。大量的商品信息使用户不能有效获得商品信息,电子商务系统的商品推荐技术能够有效地增强商品信息的针对性,提高电子商务X站吸引客户与销售能力。 基于数据挖掘技术的推荐算法可以有效地利用于对电子商务系统中的信息
2、进行挖掘与推荐,因此数据挖掘技术是研究电子商务商品推荐技术的主要途径。数据挖掘技术主要用于对有效的数据进行算法应用,得出合理的算法来进行数据挖掘,目前研究电子商务商品推荐技术主要的算法有聚类技术、关联规则等。本文主要研究关联规则技术,给出一个基于关联规则的商品推荐系统模型。1电子商务推荐系统 电子商务推荐系统根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。电子商务推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务X站为其顾客购物提供完全个性化的决策支持和信息服务。购物X站的推
3、荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求。2数据挖掘中关联规则2.1关联规则 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联X。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。2.
4、2关联规则挖掘的相关算法(1)Apriori算法:使用候选项集找频繁项集 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用
5、了递推的方法。(2)基于划分的算法 Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。(3)FP-树频集算法 针对Apriori算法的固有缺陷,J.Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之
6、的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-groin_sup的项集;第二步利用第一步找出的频繁项集构造出满足用户给定最低信任度minconf的有用规则。 Apriori算法中检索所有频繁项集是整个算法的核心。 Agraargin:0cm0c
7、m0pt;">(1)L1=find_frequent_1-itemsets(D);(2)for(k=2;Lk-1≠Φ;k++){(3)Ck=apriori_gen(Lk-1,min_sup);//Ck是k个元素的候选集(4)foreachtransactiont∈D{(5)Ct=subset(Ck,t);//Ct是所有t包含的候选集元素(6)foreachcandidatec∈Ct(7)c.count++;}(8)Lk={c∈Ckc.count≥min_sup}}(9)ReturnL=∪kLk; aprior
8、i_gen()函数以Lk-1为参数,用Lk-1和Lk-1进行连接操作生成一个超集作为后选频繁项集。 然后就是剪枝(Prune)操作,剪枝是基于这样一个原因:任何非频繁的(k-1)项集必定不是频繁k项集的子集,所以当后选k项集的某个(k-1)子集不是Lk-1中的成员时,则该后选频繁项集不可能成为频繁项集,应当从Ck中删除。 应用Apriori算法进行关联规
此文档下载收益归作者所有