欢迎来到天天文库
浏览记录
ID:14437793
大小:122.50 KB
页数:86页
时间:2018-07-28
《数据挖掘中海量数据处理算法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据挖掘中海量数据处理算法的研究与实现西安建筑科技大学硕士论文数据挖掘中海量数据处理算法的研究与实现专业计算机软件与理论硕士生苗苗苗指导教师王玉英副教授摘要数据挖掘就是从大量的数据中提取出有用的有价值的信息或者人们所感兴趣的知识的一种处理过程但是随着不断迅速发展的信息互联网和数据库技术已经迫使海量数据的处理成为数据挖掘领域所要解决的一个重要课题本文以电信数据挖掘系统的设计与开发的项目为研究背景通过对海量数据处理技术的研究提出了使用内存映射文件技术对海量数据进行初步处理的方法通过对海量数据挖掘算法及粒计算理论知识的研究
2、本文提出了两种数据挖掘算法一种是基于矩阵压缩的Apriroi算法MC-Apriori这种算法是在经典Apriori算法基础上的改进把事务数据转化为0-1矩阵并按照Apriori性质及其推论对矩阵进行反复压缩进而得到各项频繁项集此算法也在一定程度上减少了数据规模及其计算量一种是基于粒计算的关联规则挖掘算法Grc-AR此算法是在MC-Apriori算法的基础上引入粒计算的思想把海量数据集划分成若干个小数据集然后对各个小数据集进行操作并对结果进行整合得到最终结果本文以某市移动用户的通话记录为数据样本分别实现了这两种算法并对
3、实验结果进行了分析与比较实验结果证明这两种算法均没有失去算法的有效性但在实际处理海量数据时Grc-AR更适合处理海量数据集算法的可伸缩性好最后并从海量的电信数据集中提取出了一些有价值的信息给电信运营商提供了决策支持关键词数据挖掘海量数据处理MC-Apriori算法粒计算Grc-AR算法西安建筑科技大学硕士论文TheResearchandImplementationoftheAlgorithmsofMassiveDataProcessingInDataMiningSpecializedSubjectComputerso
4、ftwareandtheoryMasterMiaoMiaomiaoTutorAssociateProfWangYuyingAbstractDataMiningisaprocesstoextractinterestingandusefulknowledgefromdatasets.AndfollowingthedevelopmentofInternetanddatabasetechnologyprocessinghugedatasetshasbeenanimportanttopicindatamining.Thepap
5、ertakestheprojectof"thedesignanddevelopmentoftelecommunicationsdataminingsystem"asresearchbackgroundWiththeresearchofmassivedataprocessingtechnologythepaperputforwardawayofdealwithmassivedatausingmemory-mappedfileThroughtheresearchofmassivedataminingalgorithmsa
6、ndtheoreticalknowledgeofgranularcomputingthispaperpresentedtwokindsofdataminingalgorithmsoneisbasedonmatrixcompressionApriroialgorithmMC-AprioriThealgorithmistheimprovementofclassicApriorialgorithmitmadetransactionaldatainto0-1matrixandrepeatedcompressionmatrix
7、inaccordancewiththeApriorinatureanditscorollaryandthengetthefrequentitemsetsthisalgorithmisalsotosomeextentreducedthedatasizeandcomputationTheotherisassociationrulesminingalgorithmbasedongranularcomputingGrc-ARthisalgorithmistheintroductionoftheideaofgranularco
8、mputingonthebasisoftheMC-ApriorialgorithmItmademassivedatasetdividedintoseveralsmalldatasetsandthenoperatedonsmalldatasetsandtheresultswereintegratedtogetthefinalresultAndth
此文档下载收益归作者所有