基于hadoop平台的lda短文本分类算法研究

基于hadoop平台的lda短文本分类算法研究

ID:35176691

大小:6.83 MB

页数:65页

时间:2019-03-20

基于hadoop平台的lda短文本分类算法研究_第1页
基于hadoop平台的lda短文本分类算法研究_第2页
基于hadoop平台的lda短文本分类算法研究_第3页
基于hadoop平台的lda短文本分类算法研究_第4页
基于hadoop平台的lda短文本分类算法研究_第5页
资源描述:

《基于hadoop平台的lda短文本分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、w义津財茲乂攀*硕±学粒仪r?jPii就Hadoop平台的LDA短姑分究》_级学科:管理科学与工程二级学科:论文作者:张猛指导教师:尚翔目。1二。石巾目涵Hi'-—1P.—共琴户:nwi1??:'、分类号:密级:硕±学位论文基于Hadoop平台的LDA短文本分类算法研究*ResearchofLDAshoittextclassificationalgorithmbasedonHadoolatformpp所属学院:商学院所在系别:管理信息系

2、统系年级:2013级学号:20113扇59论文作者:张猛天津财经大学学位论文原创性声明本人郑重声明:所呈交的学位论文:《基于化doop平台的LDA短文本分类算法巧究》,是本人在导师指导下,在天津财经大学攻读学位期间进行研究所取得的成果。除文中邑经注明引用的内容外,不包含任何他人己发表或撰写过的研究成果。对本论文巧究工作做出贡献的个人和集体,均己在文中明确方式标明。本声明的法律责任完全由本人承担。学位论文作者签名;漱心年:T月^曰/天津财经大学学位论文版权使用授权书本人完全了解天津财经大

3、学关于收集、保存、使用学位论文的目规定,P;按照学校要求提交学位论文的印刷版本和电子版本;同意学校保留论文的印刷版本和电子版本,允许论文被查阅和借阅。本人授权天津财经大学可将本学位论文的全部或部分内容编入有关数据库进行检索;可レ乂采用影印、缩印或其他复制手段保存或汇^编论文!乂向有关机构或者国家部口送交论文的印刷本和电子;可版本1^レ;在不乂赢利为目的的前提下,学校可乂复制论文的部分或全部内容用于学术活动。本学位论文属于;()1.经天津财经大学保密委员会审查核定的保密学位论文,于年月日解密,解密后适用上述授权。(

4、不保密,适用上述授权。""1^(上V(请在;相应括号内打或填上相应内容。保密学位论文应是己经天津财经大学保密委员会审定过的学位论文,未经天津财经大学大学保密委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论文,均适用上述授权。)作者签名:曰期巧文曰豕)—。,吝导师签名;日期;>终i月日/内容摘要近年来,随着即时通讯、微博等网络应用的发展,大量长度较短的文本信息应运而生。这些数据不仅增长速度快,且数量庞大。如何合理利用海量文本数据,从中提取有价值的信息,便成为了当下的研究热点。基于短文本的研究目

5、前在网络舆情分析、热点话题发现、社交网络、购物平台推荐及信息安全等各个领域都受到广泛应用。短文本信息具有内容长度短、特征稀疏、噪点多等特性,W至于传统的文本分类方法一效果非常不理想。本文在前人的研究基础上,提出了种基于共现关系LDA主题的短文本分类方法。利用潜在狄利克雷主题模型化atentDirichletAllocation,LDA)对短""一文本进行处理,得到主题词分布;再提取同时出现在多个主题中的词语,建立共现1上主题具有近词集,将与;然后通过计算共现词集中各个词语与各个主题的相关度两个义一似相关度的词语做逍步筛选,

6、建立混淆词集。在进行文本分类时,对于混淆词集中的词语,,通过降低其权重来减少对分类结果的影响。为了提高本文方法的运行效率将本文方法与貼doop平台相结合,利用Hadoop分布式系统在处理海量数据的优势,来优化本文分类方法的分类效率。文本实验使用两种语料库:新闻标题语料库和微博语料库。实证过程制定两种实验方案:先使用样本较小的新闻标题语料库进行算法可行性验证,通过与其他方法进行对比,验证本文方法在分类效果方面的优势:随后利用大样本的微博语料库在化doop平台下测试本文方法是否在分类效率方面具有显著提高。最后通过实验结果分析得出,文本

7、提出的基于共现关系的LDA短文本分类方法W及将此分类方法与化doop平台结合的分类效果效率均实现预期目标。关键词:短文本分类共线性LDAHadoop网络舆情IAbstractInrecentearswitiithefastdevelomentof打etworkalicationssuchasinstanty,ppp,m-communicationicrobloandsoontherehaveamountofshort化xtinformationin,g,a.Tlicationshe

8、sedatarowuraidlandamoun

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。