欢迎来到天天文库
浏览记录
ID:53020335
大小:209.52 KB
页数:4页
时间:2020-04-12
《《负序列模式挖掘研究》.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2015年6月廊坊师范学院学报(自然科学版)Jun.2015第15卷第3期JournalofLangfangTeachersCollege(NaturalScienceEdition)Vo1.15No.3负序列模式挖掘研究林颖(武夷学院,福建武夷山354300)【摘要】传统的序列模式挖掘只研究事务数据库中包含的项,负序列模式挖掘则是同时考虑事务数据中包含的项和缺失的项。考虑到负序列模式挖掘的巨大数据量,结合已有的负序列模式挖掘算法,提出了约束条件,提高了负序列模式挖掘的效率。【关键词】数据挖掘;序列模式;负序列模式TheNegativeSequentialPa
2、tternsMiningL1NYing【Abstract】Thetraditionalsequentialpatternsminingonlyres哪chesontheitemsintransactionaldatabases,whileneg-ativesequentialpatternsminingstudiesonboththeitemsincludedandexcludedinit.Inviewofthelargedataoftheneg-ativesequentialpatternsmining,combinedwiththepresentalgor
3、ithmsofnegativesequentialpatternsmining,thearticleproposestheconstraintstoimprovetheeficiencyofnegativesequentialpatternsmining.【脚words】datamining;sequentialpatterns;negativesequentialpatterns[中图分类号]TP311[文献标识码]A[文章编号]1674—3229(2015)03—0013—03“数据挖掘”一词在20世纪8O年代提出,其中的序列数量比较庞大,存在着冗余性,但
4、是负序列模序列模式n]的相关概念在1995年由R.Agrawl等式挖掘能挖掘出正序列模式挖掘忽略的有价值的序人提出。序列模式挖掘发展至今,针对序列模式挖列模式。考虑到负序列模式挖掘的巨大数据量,为掘的研究主要集中在正序列模式的挖掘。正序列模了更加有效地挖掘出有意义的负序列模式,必须在式挖掘就是研究事务数据库中包含的项集之间的关负序列模式挖掘过程中添加约束条件。系,常见的算法有:AprioriAn[1]、GSP[2]、Pref.本文在PNSP算法的基础上,添加了新的约束ixSpanD]等。条件,对PNSP算法的挖掘结果进行进一步的剪枝,事实上,序列中缺失某些项集
5、也可能代表着某提高了挖掘效率,同时使挖掘结果更具实际意义。些重要的信息。例如,网络数据中的一个序列ds=1基本概念((a)_](b)(c)(d))可能表示客户进行了a、c操作,而未进行b操作,那么该客户会进行d操作。负序定义1正序列模式:事务数据库中满足指定列模式挖掘就是研究事务数据库中包含的项集和缺最小支持度阈值的频繁序列。失的项集之间的关系,已有的负序列模式挖掘算法序列模式与频繁模式的区别就在于频繁模式中有N。g-GSP[引、PNSP[、NSPM[]等。的各个项集问是不带有时间先后性的,而序列模式负序列模式挖掘与正序列模式挖掘相比,产生中的各个项集有先后次
6、序性之分[7]。[收稿日期]2015—04—22[基金项目]福建省教育厅科技项目(JA12323)[作者简介】林颖(1978一),女,武夷学院副教授,研究方向:数据挖掘、网络安全。·13·2015年6月廊坊师范学院学报(自然科学版)第l5卷·第3期定义2负序列模式:事务数据库中至少包含有整型数P,q,r,并且在ns中存在ei∈_]I满足两一个负项集(即事务数据库中缺失的项集)的频繁个条件:序列。(1)dsp-containsns.mp(负序列的最大正子序定义3项集I={i,i2,⋯,i},其负项集_]I=列)。_]{i,i2,⋯,i}表示的是项集I的缺失。负项
7、集_]I(2)了ei一(1p八ei+。dr^eiVd,当1≤i称为项集I的逆项集,项集I称为负项集_]I的逆项≤k,1≤P8、挖掘后,有时正项集生成支持度不大于mi
8、挖掘后,有时正项集生成支持度不大于mi
此文档下载收益归作者所有