基于改进的AprioriAll算法的Web序列模式挖掘研究

ID：36824611

大小：313.86 KB

页数：9页

时间：2019-05-16

资源描述：

《基于改进的AprioriAll算法的Web序列模式挖掘研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、论文所属栏目：计算机应用基于改进的AprioriAll算法的Web序列模式挖掘研究吴海燕，朱静君，高国柱，程志锐（清华大学计算机与信息管理中心，北京100084）摘要：为了减少AprioriAll算法挖掘过程中候选序列的生成以及对序列数据库的扫描次数，提高算法的挖掘效率，提出了一种基于改进的AprioriAll算法的Web序列模式挖掘方法。首先对数据进行预处理，然后利用经过改进的AprioriAll算法进行模式挖掘。算法的改进主要有两点：一个通过改变候选序列的连接方式来减少候选序列的产生；二是通

2、过减少不必要的数据库扫描操作来提高算法的效率。通过实验验证了改进后算法在Web序列模式挖掘过程中的高效性和正确性。关键词：AprioriAll算法；序列模式；Web日志挖掘；事务；最大向前路径中图法分类号：TP311文献标识码：AResearchofWebSequentialPatternMiningBasedonImprovedAprioriAllAlgorithmWUHai-yan,ZHUJing-jun,GAOGuo-zhu，ChengZhirui(ComputerandInformati

3、onManagementCenterofTsinghuaUniversity,TsinghuaUniversity,Beijing100084,China)Abstract:ToreducethegenerationofcandidatesequencesandthescanstosequencedatabaseforAprioriAllalgorithm,anefficientsequentialpatternminingmethodbasedonimprovedAprioriAllalgor

4、ithmispresented.Firstly,dataarepreprocessed.ThendothesequentialpatternminingwithimprovedAprioriAllalgorithm.TheimprovementsofAprioriAllalgorithmaremainlytwopoints:oneistochangetheconnectionofcandidatesequencestoreducethegenerationofcandidatesequences

5、;theotheristoreducetheneedlessdatabasescanstoimprovetheefficiencyofalgorithm.Finally,theefficiencyandvalidityofimprovedAprioriAllalgorithmisvalidatedthroughexperiments.Keywords:AprioriAllalgorithm;sequentialpattern;weblogmining;transaction;maximalfor

6、wardpath0引言Internet上蕴含着海量的信息，每天都有大量的用户通过访问Internet上的各种网站来获取自己所需的信息。用户的访问行为会在网站的日志中留下记录，通过对日志进行挖掘可以得到用户的访问模式。利用这些访问模式可以改进网站的拓扑结构，使得用户能够以更少的操作获得更多的有用信息。因此，Web日志挖掘有很好的应用前景，是目前非常热门的研究领域。序列模式挖掘是Web日志挖掘的一个重要研究课题，它是由R.Agrawal和R.Srikant[1]提出的。用户访问的序列模式是指用户访问

7、序列集合中满足一定支持度阈值的频繁子序列，它们反映了用户的频繁访问模式。而要挖掘出所有的用户访问序列模式，首先就要对日志中的原始数据进行预处理，得到用户的访问序列。这需要经过数据清理、用户识别、会话[5]识别和事务识别四个步骤，最终得到用户访问的事务数据库。接下来就是利用挖掘算法对[1]事务数据库中的序列进行挖掘。AprioriAll算法是序列模式挖掘的经典算法。它的主要思想是：每次扫描序列数据库后，利用当前得到的频繁序列生成候选序列，在下次扫描序列数据库时计算所有候选序列的支持度，把满足最小支

8、持度阈值的候选序列作为下次扫描得到的频繁序列，如此循环，直到无法产生频繁序列为止。AprioriAll算法的缺点是容易产生大量的候选序列，而且候选序列的长度每增加1都需要扫描一遍序列数据库，因此在算法的执行过程中需要反复多次扫描序列数据库，造成当序列较多或者序列较长的时候算法的挖掘效率很低，而且不容易挖掘到较长的序列模式。针对于此，我们对AprioriAll算法进行了一定的改进，并在实验中取得较好的挖掘效果。本文的余下部分首先分别对数据预处理和模式挖掘做详细的介绍，然后通过实验来展示算法改进后的

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 9



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于改进的AprioriAll算法的Web序列模式挖掘研究

基于改进的AprioriAll算法的Web序列模式挖掘研究

相关文章

相关标签