欢迎来到天天文库
浏览记录
ID:35176999
大小:2.72 MB
页数:68页
时间:2019-03-20
《基于spark并行lda主题模型的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Spark并行LDA主题模型的研究重庆大学硕士学位论文(专业学位)学生姓名:肖建指导教师:葛亮副教授学位类别:工程硕士(计算机技术领域)重庆大学计算机学院二O一六年四月ResearchofParallelLDATopicModelBasedonSparkAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheProfessionalDegreeByXiaoJianSupervisedbyAss.Porf.GeLiangSpeci
2、alty:ME(ComputerTechnologyField)CollegeofComputerScienceofChongqingUniversity,Chongqing,China.April,2016重庆大学硕士学位论文中文摘要摘要随着信息技术和互联网的高速发展,人们所能够获取的数据信息越来越多,数据的规模也在急剧增长,已经从最初的GB上升到TB甚至ZB级别。这些数据具有极大的潜在价值,但是却因为数据规模的原因加大了处理难度,因此如何快速有效地从中获取所需的有用信息成了人们亟待解决的问题。LDA(LatentDirichle
3、tAllocation,隐含狄利克雷分配)算法是一种用于文本处理的主题模型,它能够通过获取文档在主题空间的低维表示来实现文档的分析。为了进一步提高算法能够处理数据的量级,算法的并行化也成了人们研究的热点。AD-LDA(ApproximateDistributedLDA,近似分布式LDA)是通过Gibbs采样实现的并行化LDA算法,算法采用全局同步的思想,每次迭代完成以后才同步融合得到全局的主题模型参数。由于在采样的过程中并不能及时更新全局的釆样参数,所以导致最终结果的精度相对标准的LDA算法还是略有损失。本文的主要工作如下:(1)在
4、研究已有主题模型的基础上,提出基于并行化AD-LDA算法的改进方法,在对数据进行分割的过程中,引入TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文档频率)算法计算文本间的相似度,并将相似度高的文档分配到同一数据分块,减弱了数据分块之间的相互依赖性,降低了并行算法中因为不能及时更新全局采样参数带来的精度损失。(2)为了提高AD-LDA算法处理海量数据的能力,本文考虑将算法放在分布式框架下运行。Spark是一个基于内存计算的分布式框架,拥有HadoopMapReduce所具有的优点,
5、并且能更好地适用于数据挖掘与机器学习等需要多次迭代的算法。因此本文选择在Spark框架下实现了该算法。最后通过实验对比了经典数据集下不同算法的收敛速度、困惑度以及加速比的情况。实验结果表明,改进后的AD-LDA算法在困惑度与收敛速度方面的性能更接近标准LDA模型,并且该算法在大数据环境下取得了良好的加速效果。关键词:主题模型,LDA,并行化,SparkI重庆大学硕士学位论文英文摘要ABSTRACTWiththerapiddevelopmentofinformationtechnologyandInternet,peopleareab
6、letoobtainmoreandmoreinformation,thescaleofthedataisalsoincreasedramatically,hasrisedfromtheinitialGBtoTBorenvellevelofPB.Eventhedatahasagreatpotentialvalue,butbecauseofthedatasizeincreasestheprocessingdifficulty.Sohowtoquicklyandefficientlyobtaintheusefulinformationha
7、vebecometheproblemstobesolved.LatentDirichletAllocation(LDA)isatopicmodelfortextprocessing,whichmapsthedocumentstoalowdimensionaltopicspacetoachievethegoalofdocumentanalysis.AD-LDA(ApproximateDistributedLDA)isaparallelizedLDAalgorithmimplementedbyGibbssamplingalgorithm
8、,adoptingtheideaofglobalsynchronization.convergencingtogettheglobalmodelparameteraftereachiteration.Sincethesamplingp
此文档下载收益归作者所有