欢迎来到天天文库
浏览记录
ID:26761561
大小:3.99 MB
页数:100页
时间:2018-11-29
《基于spark的社交主题分析与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、电子科技大学UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA硕士学位论文MASTERTHESIS论文题目基于Spark的社交主题分析与应用学科专业计算机软件与理论学号201321060248作者姓名彭中正指导教师周涛教授万方数据分类号密级UDC注1学位论文基于Spark的社交主题分析与应用(题名和副题名)彭中正(作者姓名)指导教师周涛教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业计算机软件与理论提交论文日期2016.05.23论文答辩日期2016.05.31学位授予单位和日期电子科技大学2016年06月
2、答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。万方数据SPARK-BASEDSOCIALTOPICANALYSISWITHAPPLICATIONAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:ComputerSoftwareandTheoryAuthor:PengZhongzhengAdvisor:Prof.ZhouTaoSchool:SchoolofComputerScience&Engineering万方数据独创性声明本人声明所呈交的学位论文是本
3、人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:日期:年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位
4、论文。(保密的学位论文在解密后应遵守此规定)作者签名:导师签名:日期:年月日万方数据摘要摘要自然语言处理被认为是大数据时代十分关键的技术之一,尤其对于互联网上的“用户生成内容”进行文本分析蕴含着巨大的商业价值。主题模型是一类无监督的文本处理方法,其发展经历了从LSI模型到pLSI模型,再到LDA模型的研究阶段。尽管用LDA模型进行主题挖掘已经得到了广泛的实际应用,但数据规模变大后效率明显降低,在数据处理过程中,有效数据覆盖度和执行效率难以兼顾。随着分布式系统的发展,大规模数据计算已经得到广泛的运用。近两年发展起来的Spark平台凭借着基于内存计算的优势,在大规模数据机器学习
5、领域受到了广泛的青睐。原因是将中间计算结果保留在缓存,这种做法非常适合运用到机器学习模型的反复迭代过程之中。这一技术为解决大规模数据主题挖掘的低效率问题奠定了基础。但LDA模型中Gibbs采样的每一步执行都强依赖于其他步的执行结果,如果简单地将其分块后并行处理,过程中并行修改同一统计量直接破坏了变量的一致性,而若将变量异步更新则失去了并行化的意义。可见,强依赖每步执行状态的算法模型较难并行化,这也是为何发展迅速的Spark平台上,机器学习库MLlib中的算法依然十分稀少的主要原因。因此,LDA模型的并行化过程存在较大的难度。为了解决上述问题,本文利用LDA模型中各文档及各词
6、语独立分布的假设条件,和Gibbs采样过程各变量依赖更新的特点,创新性提出了解决方案,降低了LDA模型并行化过程中不一致性带来的影响,明显的提高了LDA模型的效率。该解决方案包含:(1)对原始数据集重构方法;(2)对执行过程的阶段性划分方法;(3)阶段内计算和阶段间变量同步的策略。具体的做法是:根据设定的并行度P和建立的词汇表,将数据集分块,进而将其划分到计算过程的P个阶段之中,保证每一个阶段选择P个依赖度最小的数据块,然后阶段内并行采样,阶段间变量同步。通过以上的方案计算直至模型收敛,得到主题分布结果。本文工作有效的解决了LDA模型在并行化中遇到的理论瓶颈,极大地改善了并
7、行运算中数据块间的变量不一致性情况,为LDA模型的并行化提供了理论依据。该方法也给同类强依赖每一步状态的算法实现并行化提供了思路。此外,本文利用Spark平台实现了LDA主题模型的并行化。在这基础之上,考虑新浪微博文本内容特征,采用以用户为单元将微博内容聚合为长文本、清洗转发内容、TF-IDF过滤无效词等多种处理方法提升模型效果,最终形成了一套高效的社交主题分析系统,其性能与使用标准LDA模型进行主题分析相比大幅提升,I万方数据摘要可供企业进行高效的微博社交数据主题挖掘。进一步地,可泛化用以分析其他社交平台数据。该
此文档下载收益归作者所有