并行lda、聚类算法的研究及应用

并行lda、聚类算法的研究及应用

ID:35076259

大小:2.76 MB

页数:67页

时间:2019-03-17

并行lda、聚类算法的研究及应用_第1页
并行lda、聚类算法的研究及应用_第2页
并行lda、聚类算法的研究及应用_第3页
并行lda、聚类算法的研究及应用_第4页
并行lda、聚类算法的研究及应用_第5页
资源描述:

《并行lda、聚类算法的研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:密级:UDC:学号:406130913132南昌大学硕士研究生学位论文并行LDA、聚类算法的研究及应用TheResearchandApplicationofParallelLatentDirichletAllocationandClusteringAlgorithm万青云培养单位(院、系):信息工程学院计算机系指导教师姓名、职称:王命延教授申请学位的学科门类:工学学科专业名称:计算机科学与技术论文答辩日期:2016年5月24日答辩委员会主席:评阅人:2016年月日一、学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的

2、。研究成果据我所知,除了文中特别加W标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南昌大学或其他教育机构的学位或证书而使用过的材料一同工作的同志对本研究所做的任何贡献均已。与我在论文中作了明确的说明并表示谢意。瓜年学位论文作者签名(手写):或签字曰期:月以曰^二、学位论文版权使用授权书本学位论文作者完全了解南昌大学有关保留、使用学位论文的规定,同意学校有权保留并向国家有关部口或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权南昌大学可将学位论文的全部或部分内容编入有关数据库。进

3、行检索,可W采用影印、缩印或扫描等复制手段保存、汇编本学位论文同时授权北京万方数据股份有限公司和中国学术期刊)(光盘版电子杂志社将本学位论文收录到《中国学位论文全文数据库》和《中国优秀博硕±学位论文全文数据""库》中全文发表,并通过网络向社会公众提供信息服务,同意按章程规定享受相关权益。gk学位论文作者签名(手写):7^^亩导师签名(手写);签字'日期:^年S月日签字日期:市年^月日>^论文题目若巧L自、A吏)、勺或余家吁论文□/名和三±±口学号3级别博硕f作1八乃|备|^I|__^■?如//业院系所专H义牙

4、妓寺每科Email_:备法回""开□(,年)^保密向校学位办申请获批准为保密__月后公开摘要摘要随着互联网的飞速发展,社会进入了一个数据爆炸的时代。这些数据蕴含着大量的价值,如何从这些海量数据中挖掘出有价值的信息成为了当前的研究热点。面对海量的数据,传统的单机处理技术已经无法处理,因而人们开始寻求新的解决办法,云计算、大数据处理技术也就应运而生了。在众多的大数据处理技术中,Spark是近几年兴起的一种基于内存计算的并行计算框架。它的优势在于十分擅长进行交互式和迭代式计算,因而受到广泛的使用。本文在Spark框架上对机器学习、数据挖掘的方法作了

5、并行化的设计。文中还涉及到词语相似度的计算,对计算方法作了一些改进。最后将这些方法应用到微博广告的投放中去,实现广告的定向投放。本文的研究工作可以分为以下四个方面:1.基于Spark框架,设计了LDA主题模型的并行化方法。在LDA模型中,采用吉布斯采样的方法对模型进行推导。通过对数据集的分割,将每个子数据集分配到集群中的各个节点进行并行运算,从而实现LDA模型的并行计算。2.对二分K均值算法进行改进并设计了基于Spark的并行算法。针对原有的算法在二分过程中,初始质心的选择速度存在不足,提出了采用极大距离点作为初始质心的二分K均值算法。改进后的算法,大大降低了运

6、算时间。另外,本文在Spark框架下,作了改进后的二分K均值算法的并行化设计。3.对词语相似度计算方法做了改进。本文的词语相似度计算方法是基于HowNet的,通过对HowNet的研究,本文将对词语相似度计算方法进行改进,实验表明改进后的词语间相似度更符合人们日常的理解和认知。4.结合已得到的研究成果,设计了微博广告定向投放方案。具体的方法是利用本文第一、二部分提出的LDA、二分K均值并行算法从微博数据中挖掘出用户的兴趣,再利用本文第三部分提出的词语相似度计算方法对用户兴趣词与广告投放关键词进行相似度计算,选择出与用户兴趣最相似的广告投放给用户,从而实现广告的定向

7、投放。关键词:Spark;LDA;二分K均值;词语相似度;微博广告IAbstractAbstractWiththerapiddevelopmentoftheInternet,thesocietyhasenteredaeraofdataexplosion.Sincethesedatacontainsusefulinformation,howtominevaluableinformationfrombigdatahasbecomethehotspot.Facedwithafloodofdata,traditionalstand-alonedataprocessing

8、hasbeenunabl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。