欢迎来到天天文库
浏览记录
ID:50428974
大小:4.03 MB
页数:60页
时间:2020-03-06
《聚类分析算法研究及其在数据密集型计算环境下的实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、擊議繼馬f茄山来理王大学':娜識綱漓穀的.r'-’擲擁P繞带甲一證硕壬学佐冷文'.-:.品,‘、、八.V*.:'y、/^聚类分析算法研究及其在数搪密集型'X、?V、A计算环境下的实现;1ResearchonClusterinAnalsisAlorithmandrmlementationgygp-inDataintensiveComputinEnvironmentsg研究生;张树燕―,,XTi3。,■..?I"'
2、—,Ii,.?一^''锭\指專:省师:张龙波(細)/^’协顶措每教师、;奉盘靖:.,中谱学位口擁别;工学硕去_肇科%化名称.计算轨科学与技未:.V..,V妍究嗦向:;数据管涯与信息安全巧品心三,.;20论受宪成日期1日年3月10日,,-1:冷独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研巧成果,也不包含为
3、获得山东理工大学或其它教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研充所做的任何贡献均已在论文中作了明确的说明并表示了谢意。〇f:此立/日研究生签名:^时间年月关于论文使用授权的说明本人完全了解山东理工大学有关保留、使用学位论文的规定,目P:学校有权保留送交论文的复印件和磁盘,允许论文被查阅和借阅:学校可W用不同方式在不同媒体上发表、传播学位论文的全部或部分内容,可[^采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此协议)■研究生
4、签名;5时间:王〇5年《月fo日癸)^^^":脾^月/〇日导师签名:I7<7多欠《^时间/[1《学位论文出版授权书》本人完全同意《中国优秀博硕古学位论文全文数据库出版章程》下简称""""章程),愿意将本人的学位论文提交中国学术期刊(光盘版)电子杂志社在《中国优秀博硕±学位论文全文数据库》中全文发表。<中国优秀博硕古学位论文全文数据库》可从电子、网络及其它数字媒体形式公开出版,并同意编入《中国知识资源总库》,在《中国博硕:t学位论文评价数据库》中使用和在互联"’’规定享受相关权益网上
5、传播,同意按章程。作者签名::^导师签名:如K年T年/曰__^_月__3L日J-研究生学号10433Y1205口5所在院系计算机科学与技术I[|山东理工大学硕士学位论文摘要摘要当前,在聚类分析中仍然存在准确性和完备性方面的不足,也没有哪种算法能够同时适用于应用的各个方面且都是有效的。在高性能计算方面,主要面临着由于大数据集(数据密集型计算环境下的数据)而带来的挑战。这些大数据集一般具有海量、高速变化、分布、异构、半结构化或非结构化的特点。对于这样的数据,传统的数据挖掘算法已经不能满足其处理要求,
6、逐渐成为数据处理技术中的瓶颈问题。本文通过对基于熵的模糊聚类算法(EFC)和中心点聚类算法的研究,提出了一种改进的基于熵的中心聚类算法(ImprovedEntropy-basedCentralClusteringAlgorithm,IECC算法)。该算法首先通过EFC算法得到差异性十分明显的原始数据集的簇心,再以得到的簇心为中心再次进行聚类分析,通过各点到各中心的距离将各点重新分配到以各中心所代表的集合中。改进的算法不仅可以得到紧凑且差异明显的聚类结果,还可以使聚类结果的准确率得到有效提高。为了适应数据密集型计算环境下
7、的数据处理要求,本文又提出一种将改进的基于熵的中心聚类算法(IECC算法)在Hadoop分布式平台上实现的可行性方案。具体的实现主要分为三个阶段即Map、Combine和Reduce阶段,在分节点上主要是Map的过程,该过程只需要得到差异性十分明显的原始数据集的簇心以及相应的离群点,将其看作是该节点上的代表点;再经过Combine阶段,把分节点上得到的簇心和离群点相关信息传到主节点上,通过Combine合并相同簇心;最后,在主节点上执行IECC算法,即对Combine过程处理过的数据执行IECC算法,得出最终聚类结果。
8、由于数据密集型计算的发展和其数据的独特特点,将新提出的算法在数据密集型计算环境下实现,有利于其解决数据密集型计算环境下数据分析和挖掘的问题。关键词:数据挖掘;聚类分析;EFC算法;IECC算法;数据密集型计算I山东理工大学硕士学位论文AbstractAbstractAtpresent,insufficiencyinaccuracy
此文档下载收益归作者所有