微博用户兴趣识别技术的研究与应用

微博用户兴趣识别技术的研究与应用

ID:35078123

大小:4.20 MB

页数:67页

时间:2019-03-17

微博用户兴趣识别技术的研究与应用_第1页
微博用户兴趣识别技术的研究与应用_第2页
微博用户兴趣识别技术的研究与应用_第3页
微博用户兴趣识别技术的研究与应用_第4页
微博用户兴趣识别技术的研究与应用_第5页
资源描述:

《微博用户兴趣识别技术的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文微博用户兴趣识别技术的研究与应用RESEARCHANDAPPLICATIONONMICROBLOGUSERINTERESTRECOGNITION杜雨萌哈尔滨工业大学2016年6月国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.37密级:公开工学硕士学位论文微博用户兴趣识别技术的研究与应用硕士研究生:杜雨萌导师:刘挺教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2016年6月授予学位单位:哈尔滨工业大学ClassifiedIndex

2、:TP391.2U.D.C:681.37DissertationfortheMasterDegreeinEngineeringRESEARCHANDAPPLICATIONONMICROBLOGUSERINTERESTRECOGNITIONCandidate:DuYumengSupervisor:Prof.LiuTingAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:

3、SchoolofComputerScienceandTechnologyDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学硕士学位论文摘要随着移动互联网技术的发展及移动终端的普及,网络上出现了许多社交类的网站和应用,微博由于其自身操作简单,传播快速等特性,聚集了大量用户。每个用户每天可以接收成百上千条微博,从而导致信息过载的问题,严重影响用户对信息及知识的获取。此外,越来越多的商家将

4、微博作为营销平台,因此如何完成高质量的广告定向投放也成为一个具有重要商业价值的问题。微博用户的兴趣识别可以帮助解决上述问题。本文的主要工作如下:本文首先尝试了基于主题模型的用户兴趣识别。将用户的微博集合看作一篇文档,使用LabeledLDA主题模型对用户微博文档的主题进行预测,获得的主题分布看作是用户的兴趣主题分布。该方法的问题是,当兴趣词周围存在大量噪声词时,LabeledLDA主题模型对用户兴趣词的主题分配会随上下文而发生严重偏移,从而导致用户兴趣识别错误。其次本文尝试了基于微博分类的用户兴趣识别,通

5、过对用户的微博进行逐条兴趣分类,从而缓解噪声词对兴趣词的影响,然后通过用户微博的兴趣类别分布识别用户兴趣。尝试了两个分类器,一个是以二字串bigram作为特征单元的线性SVM,另一个是使用卷积神经网络实现的分类器。实验结果表明,基于微博分类的兴趣识别方法的效果优于基于主题模型的方法,但上述两个分类器对于包含噪声词较多的微博分类效果还有提升空间。第三提出一种基于主题增强卷积神经网络的用户兴趣识别方法,通过构建一个结合连续的语义特征和离散的主题特征的双通道CNN作为微博分类器,对用户的微博进行兴趣分类,通过极

6、大似然估计得到微博用户的兴趣。实验结果表明使用融合主题信息的主题增强CNN将显著提高用户兴趣识别的效果。最后一部分介绍了兴趣模型的一个应用,聊天机器人笨笨的新闻推荐模块,该模块基于LDA主题模型,负责为用户提供个性化的新闻推荐服务。关键词:主题模型;卷积神经网络;微博分类;用户兴趣识别I哈尔滨工业大学硕士学位论文AbstractWiththedevelopmentofmobileInternettechnologyandthepopularityofmobileterminals,therehavebee

7、nmanysocialwebsitesandapplicationsontheInternet.Asasocialapplication,microbloghasattractedalargenumberofusers,withitsconvenienceofoperationandrapidpropagation.Auserreceivinghundredsofmicroblogseveryday,whichleadstothesituationofinformationoverload,increas

8、esthedifficultyoftheuser'sinformationandknowledgeacquisition.Ontheotherhand,moreandmoremerchantstreatingmicroblogasamarketingplatform,whichmakestheadvertisementsdirecteddeliverybecomeaproblemwithhighlycommercialvalu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。