改进的prefixspan算法在客流计数中的应用

改进的prefixspan算法在客流计数中的应用

ID:20321353

大小:55.50 KB

页数:6页

时间:2018-10-12

改进的prefixspan算法在客流计数中的应用_第1页
改进的prefixspan算法在客流计数中的应用_第2页
改进的prefixspan算法在客流计数中的应用_第3页
改进的prefixspan算法在客流计数中的应用_第4页
改进的prefixspan算法在客流计数中的应用_第5页
资源描述:

《改进的prefixspan算法在客流计数中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、改进的PrefixSpan算法在客流计数中的应用摘要:序列模式挖掘是基于关联规则的频繁项集的挖掘,其实质是在关联模型中加入时间属性。利用改进的PrefixSpan算法对客流计数系统中不同时段的数据进行挖掘分析,给出不同时段的客流高峰的频繁序列模式,对于提高客流计数系统的精度,给管理决策者调配人力,物力,财力提供技术支持,对于最大限度地发掘购物中心的潜力,提高利润,具有重要的经济意义。  关键词:序列模式挖掘;关联模型;PrefixSpan算法;客流计数  :TP391文献标志码:A:1006-8228(2013)06-50-03  Applic

2、ationofimprovedPrefixSpanalgorithmincountingpassengerfloiningisafrequentitemsetsminingbasedonassociationrules,anditsessenceistoaddthetimeattributetotherelationmodel.Inthispaper,dataindifferenttimesofpassengerfloisminedandanalyzedbytheimprovedPrefixSpanalgorithm.Frequentseque

3、ntialpatternsofthepeakpassengerfloportanteconomicalmeaningforimprovingpassengerfloaccuracy,providingtechnicalsupportforthemanagerstoallocatehuman,materialandfinancialresources,maximizingthepotentialoftheshoppingcenter,andincreasingprofits.  Keyining;correlationmodel;PrefixSp

4、analgorithm;passengerfloset)是所有在序列数据库出现过的单项组成的集合。  元素(Element)可表示为(x1,x2…xm),xk(1<=k<=m)为不同的单项。元素内的单项不考虑顺序关系,一般默认按照ID的字典序排列。  序列(Sequence)是不同元素(Element)的有序排列,序列s可以表示为s=,sj(1<=j<=l)为序列s的元素。  一个序列包含的所有单项的个数称为序列的长度。长度为l的序列记为l-序列。  设序列α=,序列β=,ai和bi都是元素。如果存在整数1<=j1

5、,sj(1<=j<=l)为序列s的元素。  一个序列包含的所有单项的个数称为序列的长度。长度为l的序列记为l-序列。  设序列α=,序列β=,ai和bi都是元素。如果存在整数1<=j1,β=(m?n),如果ei'=ei(i?m-1),em'?em,并且(em-em')中的项目均在em'中项目的后面,则称β是α的前缀。  ⑵投影:给定序列α和β,如果β是α的子序列,则α关于β的投影α'必须满足:β是α'的前缀,α'是α的满足上述条件的最大子序列。  ⑶投影数据库:设α为序列数据库S中的一个序列模式,则α的投影数据库为S中所有以α

6、为前缀的序列相对于α的后缀,记为S

7、α。  ⑷投影数据库中的支持度:设α为序列数据库S中的一个序列,序列β以α为前缀,则β在α的投影数据库S

8、α中的支持度为S

9、α中满足条件b?α.γ的序列γ的个数。  3改进的PrefixSpan算法[3]  在基本算法过程中,我们发现构建投影数据的数量是先增加后减少的一个状态,而且投影数据库的数量跟频繁项的位置有很大关系,所以针对投影数据的缩减,我们使用如下几种方法改进算法,提升效率。  3.1伪投影技术  所有的投影数据库都以索引的形式给出,我们只给定一个初始的序列数据库A,然后所有中间过程都记录其下标的位

10、置,然后利用下标去原始库A中查找该字符序列。  3.2PSD优化算法  首先找出各个频繁单项,产生每个频繁项对应的投影数据库集合。因为非频繁项出现次数已小于最小支持数。在其后的挖掘中也不会成为频繁项,故只保存扫描该投影数据库时得到的频繁项。然后对每个投影数据库进行单独挖掘,之前先比较该投影数据库所包含的序列数和最小支持数,若投影序列数小于最小支持数,将不会再有超过最小支持数的频繁项,则退出对该投影数据库的进一步挖掘。因为舍弃了非频繁项,将大大减少保存投影数据库所需内存空间,也将减少其后挖掘中扫描不必要项的时间,提高了算法执行效率。因为在对投影数

11、据库进行挖掘前,先比较了其包含的序列数和最小支持数,放弃挖掘序列数已小于最小支持度的投影数据库,减少了扫描不可能出现频繁序列的投影数据库的时间,提高了

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。