基于spark平台的聚类算法的优化与实现

基于spark平台的聚类算法的优化与实现

ID:35058679

大小:6.63 MB

页数:73页

时间:2019-03-17

基于spark平台的聚类算法的优化与实现_第1页
基于spark平台的聚类算法的优化与实现_第2页
基于spark平台的聚类算法的优化与实现_第3页
基于spark平台的聚类算法的优化与实现_第4页
基于spark平台的聚类算法的优化与实现_第5页
资源描述:

《基于spark平台的聚类算法的优化与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10004巧级:公开恥、交4乂fBEIJING.JIAOTONGUNIVERSITY硕±学位论文基于Sark平台的聚类算法的优化与实现p作者姓名请鹏甚学科专业《^化§誦师卢韦教授flHj;j|M,!;;票;二零―*年六月I硕±学位论文基于Spark平台的聚类算法的优化与实现OtimizationandImlementationofClusterinAlorithmsppggBasedonSparkPlatform作者

2、:曹鹏导师;卢幸教授北京交通大学2016年6月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编W供査阅和借阅。同意学校向国家有关部口或机构送交论文的复印件和磁盘。学校可W为存在馆际合作关系的兄弟髙校用户提供文献传递服务和交换服务。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名"签字曰期:

3、年)月仪曰签字曰期年方月/Z曰(学校代码:10004密级:公开北京交通大学硕±学位论文基于Spark平台的聚类算法的优化与实现OtimizationandImlementationofClus化rinAlorithmsppggBasedonSarkPlatformp作者姓名13121685;曹鹏学号:导师姓名;卢韦职称:教授:学位类别:工学学位级别;硕t学科专业:软件工程研巧方向:分布式计算北京交通大学2016年6月i致谢本

4、论文的研巧工作是在导师卢幸教授和邢薇薇副教授的悉也指导下完成的,两位老师渊博的学识、严谨的治学态度、孜孜不倦的工作热情和科学的工作方法,给予了我很大的帮助。在研巧生的呈年时间里,老师们在学习和生活中都给予了我极大的帮助和支持,在此对他们表示衷也的感谢。在研巧期间,,学院提供了丰富的实验环境^义及科研设备方便本人进行学习和研巧。在论文写作期间,本人获得了邢老师的很多支持和耐也的指导,在老师的指点下将这个方向的研巧继续下去。同时在研巧过程中,跟实验室的同学交流经验,也让我受益匪浅。在撰写

5、论文的这段时间里,身边的朋友、爱人和亲人不断的支持也给了我前进的动力。在此对学院老师和实验室的同学还有家人朋友致W由衷的感谢。本文选题来自导师的科研项目,研巧工作得到了国家自然科学基金项目(No.612723巧)的资助。北京交通大学硕±学位论文摘要现代信息社会中,随着数据量的増大,对大规模数据集进行聚类分析并生成有用信息的需求也在不断増加。如今对于大规模数据的聚类分析主要有W下难点:第一一,聚类对机器内存容量的需求超出了单计算机的硬件能力;第二,聚类分析时。间过长,效率无法得到

6、提髙于是,对大规模数据上聚类算法的优化,可W归结为对数据规模的优化及对算法在分布式平台上的优化。近年来,分布式计算平台Spark得到了广泛关注,Spark可对于大规模数据进行内存上的迭代计算,使计。算变得更加迅速,有着其它分布式平台无法比拟的优势本文主要研巧了基于Spark平台上特定的聚类分析算法的优化和实现;与此同时一,对于聚类数据进行定的预处理,可W在其不改变聚类效果的前提下减少数据规模:,提高运行效率。论文选取了近年来被提出且被广泛应用的聚类算法近邻传播聚类与谱聚类作为优化对象。论

7、文的主要工作如下:一1针对聚类算法的数据规模问题:,本文通过引入种新的参数巧值,对原()始数据进行预处理。该方法根据聚类巧法需要生成的类簇数,针对数据在空间中的密度计算出一定的闽值,在生成相似度矩阵时将低于该闽值的相似度数据删除,保留有效的相似度数据,从而优化数据结构并生成稀疏矩阵,在保证聚类效果不发生变化的同时减小数据规模。一,本文提出了种基于Sark平台上的分块式的近(巧对于近邻传巧聚类算法p邻传播聚类第法。通过在Spark平台使用二维索引的数据结构按照行进行分块并分配到每台机器

8、中,在算法迭代中按照行分块计算归属度矩阵,并将生成结果按列存储,并,;再按照列分块计算吸引度矩阵将生成结果按行存储不断迭代最终生成聚类结果。从而实现算法在Spa皮平台上数据的并行化,巧少机器之间的数据传输,提窩聚类算法的效率。3对于谱聚类算法一Sk平Lan,本文提出了种基于ar台上并行czos分解的()p的谱聚类算法一。首先引入种并行的L

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。