欢迎来到天天文库
浏览记录
ID:35176706
大小:4.12 MB
页数:72页
时间:2019-03-20
《基于云平台的知识聚类与关联挖掘机制研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、’-’I'■:古。知.;V...^'....鴻苦義...:.,单位代码:10293密级:公开;左,,-';^'.勺/,1為.,興茲,為雀^嫂?考巫營像硕女化乂论文题目;基于云平台的知识聚类与关联挖掘机制研究.‘一讀学号.1213043112>;禾扛.—--V姓名.:刘晶晶声^.■:苗’'公导师'.童韵V專'^专业学位类别^工掉硕+l类型全曰制聲簡'■专业(领域)软件T措:
2、.##—皆:.;论文提交日期二零一六年二月..;I';;許梅,.册I‘巧,I一户...I心:南京邮电大学学位论文原创性声明本人声明所M交的学位论文是我个人在导师指导下进行的研究工作及取得的研免成果。尽我所知,除了文中特别加标注和致谢的地方外,论文中不包含其他人t经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。-同工作的同志对本研巧所做的化何贡献巧己在论文中作了明确的说明并表示了谢意与我。…。本人学位论
3、文及涉及相关资料若有不实,愿意承巧切相关的法律责任硏究生签名:刘無和日期:如/L斗、〇_!.南京邮电大学学位论文使用授权声明电大留口或的印电子档人授权南京邮学可保并向围家有关部机构送交论文复件和文;本许论文被查阅和借閲:可W将学位论文的全部或部内容入有关据库进行可W允分编数检索:、印或描等复保、。的内纸采巧影印缩扫制手段存汇编本学位论文本文电子文巧容和质论文一致。论文()理。的容相的公布包括刊登邮电大学研生院内授权南巧究办巧密在解密尼适用本授学位论义权书。名;装I:期:A寺'
4、研巧化签古导师签名日^吗為IMiningMechanismofKnowledgeClustersandAssociationsBasedCloudPlatformThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByLiuJingjingSupervisor:Prof.ZhangYunFebruary2016摘要在信息化、大数据时代背景下,各种文本数据正大量地出现
5、在人们的日常生活中,如搜索引擎查询、电商的用户评价、文章摘要等等。人们对互联网信息进行浏览和汇总消耗的精力与时间也越来越多,为了更好提升服务的质量或者提供新的服务,需要对这些短文本进行数据挖掘,给文本定一个语义类别的标示则显得尤为必要。针对文本摘要、参考文献、关键词等多维度数据挖掘,进行整理推荐文本信息,以便提高读者阅读效率与质量。本文整体思想是先对文本进行静态聚类,使得文本信息自动归档,再基于用户动态的浏览过程做关联规则分析,得到动态文本数据频繁项集,最后将频繁项集在聚类结果中分析找到其关联规则,以提高文
6、本信息查询的效率,具有非常重要的应用前景与研究意义。基于云平台和数据挖掘的深入理解,在现有的聚类基础上做出改进,提出文献多维度提取分析策略、孤立点检测与初始中心改进,在云平台上进行MapReduce处理,提高聚类质量和效率。针对用户动态浏览过程,提出了一种基于权值矩阵的FP-Growth关联规则,经过时间因子过滤,得到初始矩阵,进一步计算出权值向量,用于FP-Growth算法改进。同时,解决了动态事务项集部分更新及支持度变化的问题,并依据聚类结果进行类别筛选,在云平台上进行并行处理,改进算法性能和时空间效率
7、,最终得到更有效、更精准的频繁项集,为后续推送研究做基础。最后,在实验平台上验证上述改进算法,其算法性能和效率提高很多。关键词:数据挖掘,Hadoop,聚类,关联规则,MapReduceIAbstractUnderthebackgroundofinformatizationandlargevolumedataera,allkindsoftextdata,whichinclude:SearchEngineQuery,E-Commerceuserreview,andquotationofarticle,etc.
8、hasbeenrapidappearinginpeople’sdailylifeatpresent.Thetimeandqueryvolumethatpeoplespentareobviouslyincreasedaswell.Inordertopromoteservicequalityandmotivaterecreationoftheservice,dataminingworksthroughshorttex
此文档下载收益归作者所有