基于划分和压缩数据库的改进Apriori算法.pdf

基于划分和压缩数据库的改进Apriori算法.pdf

ID:55399089

大小:289.35 KB

页数:5页

时间:2020-05-15

基于划分和压缩数据库的改进Apriori算法.pdf_第1页
基于划分和压缩数据库的改进Apriori算法.pdf_第2页
基于划分和压缩数据库的改进Apriori算法.pdf_第3页
基于划分和压缩数据库的改进Apriori算法.pdf_第4页
基于划分和压缩数据库的改进Apriori算法.pdf_第5页
资源描述:

《基于划分和压缩数据库的改进Apriori算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第42卷第1期成都理工大学学报(自然科学版)Vo1.42NO.12015年2月JOURNALOFCHENGDUUNIVERSITYOFTECHNOLOGY(Science&TechnologyEdition)Feb.2O15DOI:10.3969/j.issn.1671—9727.2015.01.14[文章编号]1671—9727(2015)01—0110—05基于划分和压缩数据库的改进Apriori算法胡绿慧,任玉兰,何振林(成都中医药大学医学信息工程学院,成都610075)[摘要]针对Apriori算法在

2、面对大规模数据时效率较低的问题,提出了一种基于划分和压缩数据库的改进方法。该方法首先依据特征数据出现的频率将数据按照升序存储在临时数组中;然后将原始事务数据库分为几个互不相交的事务数据库,使得子数据库能够容纳在内存中;最后根据每个子数据库计算出的频繁项集计算整个数据库的频繁项集,从而消除了不必要的冗余数据。通过改进可以将大规模数据集进行有效的划分和压缩,对子数据库进行关联规则挖掘。实验结果表明,改进的Apriori算法在针对海量数据挖掘的执行速度和效率都有很大提高。[关键词]数据挖掘;关联规则;压缩数据库[分

3、类号]TP391[文献标志码]AImprovedApriorialgorithmbasedonclassificationanddatabasecompressionHULn—hui,RENYU—lan.HEZhen—linCollegeofMedicalInrformationEngineering,ChengduUniversityofTraditionalChineseMedicine,Chengdu610075,ChinaAbstract:WhentheApriorialgorithmfacesmas

4、sivedata,itsrateislOW.Tocountertheaboveproblem,thispaperputsforwardanimprovedmethodbasedontheclassificationanddatabasecompression.Firstly,accordingtotheappearingfrequencyofcharacteristicdata,thismethodstoresthedatainatemporaryarrayinascendingorder.Thentheor

5、iginaltransactiondatabaseisdividedintoseveraldisjointtransactiondatabaseinordertoaccommodatethedaughterdatabaseinthememory.Atlast,theentiredatabasefrequentitemsetsarecalculatedbythefrequentitemsetscalculatedaccordingtoeachdaughterdatabase,therebyeliminating

6、theunnecessaryredundantdata.Throughtheimprovement,thelargedatasetscanbeeffectivelydividedandcompressed,andtheassociationrulescanbetappedonthedaughterdatabase.TheexperimentalresultsshowthattheimprovedApriorialgorithmhasimprovedalotinthespeedandefficiencyofmi

7、ningthemassivedata.Keywords:datamining;associationrule;databasecompression[收稿日期]2014—05—19。[基金项目]国家自然科学基金资助项目(81102742);四川省教育厅项目(12SB025);成都中医药大学科技发展基金项目(ZRYB201147)。[第一作者]胡绿慧(1977一),女,硕士,讲师,研究方向:数据库、数据挖掘,E-ITIail:huluhui@163c。m。.第l期胡绿慧,等:基于划分和压缩数据库的改进Aprio

8、ri算法.111.随着信息技术的发展,医学信息的迅猛增加,1.2Apriori算法描述而人脑的储存和处理信息的能力又有一定的局限Apriori算法是一种使用频繁集的先验知识性,因此会对临床问题的思考、信息的判断、寻找从而生成关联规则的一种算法,是最有影响的关解决问题的办法和制定临床治疗方案决策造成困联规则挖掘算法,采用了逐层搜索的迭代方法寻扰。面对跨越千年的文献资料,如何快速、有效地找频繁项集I2]

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。