欢迎来到天天文库
浏览记录
ID:32750466
大小:61.74 KB
页数:7页
时间:2019-02-15
《基于顾客购买行为apriori算法在电子商务中应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于顾客购买行为Apriori算法在电子商务中应用摘要随着Internet技术和数据库技术的飞速发展,企业数据量非常大,而其中真正有价值的信息却很少,因此从如此规模庞大和杂乱的数据中找出对企业的商业动作和提升它们核心竞争力的信息,就如从矿石中淘金一样,在这种情况下数据挖掘技术应运而生。【关键词】数据挖掘技术数据库技术Apriori算法数据挖掘技术有助于企业从数据库以及数据仓库中更快和更精确地寻找到所需要的信息内容,然后对这些提取的信息进行分析,从而可以成功了解客户的购买习惯,进一步地预测企业未来业务的发展趋势,更有效地帮助企业制定正确的商务决策。而关联
2、规则挖掘作为数据挖掘的重要方法,已经广泛运用于电子商务领域,如关联规则挖掘可应用于研究电子商务领域中分析客户购买行为。Apriori算法是关联规则挖掘在电子商务领域中众多算法中最有影响的算法。但是Apriori算法在电子商务实际应用中,还存在着许多的不足。很多专家学者针对这些不足提出了改进算法,尽管这些算法都各具优点且挖掘性能都明显优于传统的Apriori算法,但总的来说,算法仍较复杂低效。本文在此基础上提出了一种新的关联规则改进算法。该改进算法不仅可以节省大量的存储空间,而且能更高效的挖掘出电子商务中顾客与商品之间的内在联系,从而指引企业做出正确的商
3、业决策。1Apriori算法1.1Apriori算法基本思想Apriori算法是一种很有影响的算法,能够应用逐层查找的迭代算法(查找(K+1)-项集是通过K-项集得来)来挖掘关联规则频繁项集的一种算法。Apriori算法的思路如下:第一步,对数据集首先进行全面扫描,然后形成一个大的预备数据项集,最后算出预备数据项集发生次数;第二步,L1的生成(频繁1-项集的集合,它是利用事先已给出的最小支持度生成),在依靠数据集以及生成的L1内的数据的基础上,继续生成L2(频繁2-项集),以此类推,生成频繁n-项集Ln,这里要提醒的是,频繁(N+1)-项在如此给定的最
4、小支持度条件下已经无法生成;第三步,在大数据项集内引出规则。1.2Apriori算法关键步骤如何从LkT查找出Lk,这是Apriori算法应用的关健步骤,对于这个关健步骤,还可以细分成两步:连接:为了准确找出Lk,需要利用Lk-1与自己连接产生备选k-项集的集合。设该备选项集的集合用Ck表示,其中A1和A2是Lk-1中的项集,Ai[j]的含义为Ai的第j项。设II和12是Lk-1中的项集,Ii[j]表示Ii的第j项;执行连接Lk-1和Lk-1,其中1±-1的元素是可连接,如果它们前(k-2)个项相同且第(k-1)项不同,连接A1和A2产生的结果项集是A
5、l[1]A1[2]Al[k-1]A2:k-1]o剪枝:Ck为Lk的超集,换言之,其成员既允许是频繁的也允许是不频繁的,唯一注意的是全部频繁k-项集均包括在Ck中。通过数据库的扫描来汇总所有候选的计数,由此获取1±。一般情况下Ck数据较大,由此运算量也大。如果想要压缩Ck,利用Apriori的特征即可实现,所以,某个候选k-项集的(k-1)子集一旦未出现在Lk-1中,就认定此该候选不频繁,据此从Ck中将其删除。Apriori算法自身已经做了一定的优化,但仍然存在算法效率不高的问题°Apriori算法主要不足在以下三个方面:(1)需要对数据集进行多次扫描,
6、这引起系统I/O负载重。在Apriori算法的每一次循环运算,都需对全部数据集进行扫描,每一次扫描都可能面临庞大的数据量,导致扫描的时间长,而Apriori算法需对数据集进行多次扫描的设计,更是需要大量的时间。(2)生成数量众多备选项集。Lk由Lk-1中的项集作自连接产生候选项集的集合Ck,如此引起备选k-项集的数量以几何级数速率成倍增加。比如在频繁1-项集的数量是103时,频繁1-项集的数量一下子就变成105个。(3)该运算方法的适应面通常情况下比较窄。因为它仅仅注重按照单维布尔关联规则进行挖掘,但在大部分情况下,产生的是多维、多层数据的数值型关联规
7、则。考虑Apriori算法的上述三方面不足,本文给出了相应的改善方法,并提出了一种新的Apriori改进算法。2Apriori算法的改进2.1算法基本思想首先,将电子商务中产生的事务数据库中全部数据项实施编码,同时,将其映射至布尔矩阵,并产生频繁1-项集,然后针对布尔矩阵的行向量应用向量内积运算,找出频繁项集可能存在的行以达到逐步浓缩布尔矩阵行向量的目的,最后从浓缩的布尔矩阵中快速、直观地归纳出事务数据库要找的频繁项集。据此可知,该运算方法的基本思想就在于对数据库按顺序扫描一次,此外,还可以大幅度地降低候选集的总量,由此提升运算方法的效率。2.2算法基
8、本步骤一般来说,该运算方法的步骤如下:(1)为确认数据库中记录总量,先对其实施一次扫描,同时汇
此文档下载收益归作者所有