图书流通中的关联规则挖掘技术研究

图书流通中的关联规则挖掘技术研究

ID:34078499

大小:76.00 KB

页数:6页

时间:2019-03-03

图书流通中的关联规则挖掘技术研究_第1页
图书流通中的关联规则挖掘技术研究_第2页
图书流通中的关联规则挖掘技术研究_第3页
图书流通中的关联规则挖掘技术研究_第4页
图书流通中的关联规则挖掘技术研究_第5页
资源描述:

《图书流通中的关联规则挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、图书流通中借阅关联规则挖掘技术的研究常青(浙江农林大学杭州311300)【摘要】在简述关联规则概念和技术的基础上,深入分析关联挖掘技术在图书馆借阅服务中的应用。介绍了一种关于图书借阅关联规则挖掘的技术方法,和借阅关联规则的几种主要类型。【关键词】关联规则;数据挖掘;流通分析;【分类号】G350BookscirculationLibraryAssociationRulesMiningTechnologyResearchChangQing(ZhejiangA&FUniversity,Hangzhou311300China)【Abstract】Inthispaperthec

2、onceptofassociationrulesandtechnicalbasis,in-depthanalysisofassociationruledataminingtechnologyinthelibraryserviceapplication.Introducealibraryassociationruleminingtechnique,andcirculationassociationrulesofseveralmaintypes.【Keywords】Associationrules;Datamining;Circulationanalysis;高校图书馆使

3、用图书馆管理系统已超过10年的时间,在数据库中积累了几百万甚至上千万的读者借阅数据。全面分析这些借阅数据,对图书馆提高服务质量、科学采购具有积极的指导意义。从主动服务读者的角度出发,单一角度的流通统计已经不能满足现实的需求,不能客观全面的反映读者的真实需求,多维的、多条件的数据统计分析才能全面揭示读者对图书馆的阅读需求。在庞大的数据库中,这种多维的多条件的数据统计分析更多地体现为数据挖掘技术的应用,而与读者需求和图书利用密切相关的深度挖掘技术是读者借阅关联规则的挖掘。读者借阅关联规则的挖掘,可以为优化图书馆信息资源配置、提供读者个性化服务等提供科学的参考依据。1关联规

4、则简述1.1关联规则的定义“假设I是项的集合,称为项集。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(TransactionID)对应。”[1]支持度(support)是指规则中所出现模式的频率,即D中事务同时包含X、Y的百分比,表示为概率P(XY),即support(XY)=P(XY);置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率confidence(XY)=P(Y

5、X)。关联规则是有趣的,“如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集,

6、在频繁项集中满足最小置信度阈值的则为关联规则。”[2]1.2关联规则挖掘的过程关联规则挖掘过程主要包含两个阶段:“第一阶段是先从原始资料集合中找出所有的高频项目组(FrequentItemsets),即找出所有支持度大于等于所设定的最小支持度(MinimumSupport)的项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequentk-itemset),一般表示为Large浙江省教育厅2011年课题《图书馆管理软件的优化研究》研究成果,项目编号:Y2011122751k或Frequentk。算法并从Largek的项目组中再产生Largek+

7、1,直到无法再找到更长的高频项目组为止。第二阶段是从高频项目组中产生关联规则(AssociationRules)。是利用前一步骤的高频k-项目组来产生规则,在最小置信度(MinimumConfidence)的条件门槛下,若一规则所求得的置信度满足最小置信度,称此规则为关联规则。”[3]关联规则的整个挖掘过程中最难的是第一阶段,即高频项目组的挖掘,当数据量大、项集的长度比较大时,挖掘过程中会产生大量的候选项集,逐一进行最小支持度的比较才能得到高频项目组。1.3关联规则挖掘的算法1.3.1Apriori算法:“使用候选项集找频繁项集。该算法采用了一种宽度优先、逐层搜索的递

8、推算法,首先产生所有的频繁1-项集,然后在此基础上依次产生频繁2-项集、频繁3-项集……,直到频繁k-项集为空集。在此过程中,产生每个频繁项集都需要扫描一次数据库,通过对数据库D的多趟扫描来发现所有的频繁项目集,只有那些大于用户给定的最小可信度的规则才被留下来。该算法的两大缺点是:为了生成所有频集,使用了递推的方法,可能产生大量的候选集;需要重复扫描数据库,导致很大的I/O负载,算法的效率不高。”[4]1.3.2FP-树频集算法:“采用分而治之的策略。在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时保留其中的关联信息

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。