一种改进的APRIORI算法在电子商务中的应用.pdf

一种改进的APRIORI算法在电子商务中的应用.pdf

ID:52342020

大小:286.01 KB

页数:4页

时间:2020-03-26

一种改进的APRIORI算法在电子商务中的应用.pdf_第1页
一种改进的APRIORI算法在电子商务中的应用.pdf_第2页
一种改进的APRIORI算法在电子商务中的应用.pdf_第3页
一种改进的APRIORI算法在电子商务中的应用.pdf_第4页
资源描述:

《一种改进的APRIORI算法在电子商务中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2012年1月西安石油大学学报(自然科学版)Jan.2012第27卷第1期JournalofXiallShiyouUniversity(NaturalScienceEdition)Vol_27No.1文章编号:1673-064X(2012)01-0091-03一种改进的APRIORI算法在电子商务中的应用屈展,陈雷(西安石油大学计算机学院,陕西西安710065)摘要:结合电子商务推荐系统的实际需求,在分析Apriori算法的特点和不足的基础上,提出了一种改进的分段Apriori算法,将此算法引入到电子商务网站的推荐系统中,使网站的交易效率和客户认可度均得到提升.关键词:APRI

2、ORI算法;电子商务;推荐系统中图分类号:TP301.6文献标识码:A商品采购者在电子商务活动的过程中通过生c集合,属于候选1一项集;Web方式进行信息流的交互.通过数据挖掘技术,(2)由候选1一项集的集合c,结合最小支持可以运用分类、关联、聚类等技术手段,从中提取出度rain_sup,产生频繁集合,属于1一项集;有利于市场策略的数据¨.关联规则挖掘在这个过(3)设定k=1;程中起到了不可或缺的作用,通过在电子商务中发(4)在的作用下,执行操作,进行剪枝和连现事务数据库中不同商品间的关联关系,确定客户接,产生集合c,属于候选(k+1)一项集;购买行为模式,可以广泛应用于电子商务

3、数据管理(5)由候选(k+1)一项集的集合c,结合最和客户关系管理.在进行关联分析中,人们常常采用小支持度min—sup,产生集合小属于频繁(k+1)Apriori算法进行分析,本文在分析算法不足的基础一项集;上,提出了一种改进的分段Apriori算法,达到分布(6)如果+非空,则k值增1,转到步骤(4),化、并行化寻找频繁项集的目的,以便于对客户进行否则,转到步骤(7);个性化营销.(7)由频繁项集根据最小置信度rain—conf,产生强关联规则,算法结束.1Apriori算法简介随着电子商务的发展,关联规则挖掘被广泛应Apriofi算法是1994年由R.Sfikan和R.A

4、graw—用,它能够对大量的数据进行快速的分析,发现其关al提出的最有影响的一种原创性布尔关联规则挖掘联,从而有利于决策分析和商业管理.电子商务的市频繁项集的算法.该算法基于以下的原理:频繁项目场购物篮分析是关联规则挖掘的一个典型应用,通集的子集同样是频繁项目集;同理,非频繁项目集的过对一起购买的商品集进行搜索,来确定客户的购超集依旧是非频繁项目集.物习惯.通过分析交易数据,获得顾客购买模式的信Apriori算法的主要步骤:息,进而分析顾客的购买习惯,帮助零售商制定营销(1)对事务数据库中的每个事务进行扫描,产策略.收稿日期:2011435-08基金项目:陕西省科技攻关项目(编

5、号:2009K08-34)作者简介:屈展(1957一),男,教授,博士,主要从事管理信息系统与计算机网络、石油与天然气工程方面的研究E—mail:zhqu@xsyu.edu.en一92一西安石油大学学报(自然科学版)小支持度项集.这种改进的方法来自于先验原理和2Apriori算法的不足支持度的反单调性原理,在此不再赘述.在先验原理的支持下,若某个项集在分段中不是频繁的,则最终Apriori算法的最大优点是算法思路比较简单,生成的频繁项集中不会存在此子集;而在支持度的Apriori算法将递归的统计作为算法的基础,并进行反单调性原理中,如果分段中的项集非频繁,则含有频繁项集的生成J

6、.但是在Apriori算法的实际运用这个子集的项集所具备的支持度不大于所给的最小过程中,笔者发现Apriori算法也存在一些不足:支持度.结合以上两个原理,用表1中的事务数据库(1)对事务数据库多次反复的扫描.需要多次对算法进行解释,设其最小支持度阈值为3.扫描整个事务数据库才能找出包含每一个候选集的表1事务数据库数据库事务.假若将n作为事务数据库中频繁项目Tab.1Transacfiondatabase集最长的长度,则Apriori算法扫描数据库的次数至项集少是n次.由于算法消耗了大量时间,导致效率降低,I/O负载大幅增加.(2)所生成的候选项目集数量太大.假如一个频繁项目集

7、模式长度为m,必须生成额外的频繁项目集就是2一个,此外还需要对其支持度进行计算,不断消耗了大量的时间,同时也增加了计算机CPU可见,在这个项集中,不重复的项一共有17个,的负载.分别为89b,C,d,e,⋯,p,S.将每5个项分为一组,划(3)采用唯一最小置信度和最小支持度,各个分的结果为:第1组{a,b,C,d,e}、第2组{f,g,h,i,属性的重要程度差异则没有考虑在内.在现实的电j}、第3组{k,l,m,n,o}和第4组{P,s}.图1为具子商务行为中,同时存在稠密数据(如电信、人口

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。