基于labeled+ld的微博用户兴趣识别系统的-研究和实现

基于labeled+ld的微博用户兴趣识别系统的-研究和实现

ID:34153887

大小:5.89 MB

页数:54页

时间:2019-03-04

基于labeled+ld的微博用户兴趣识别系统的-研究和实现_第1页
基于labeled+ld的微博用户兴趣识别系统的-研究和实现_第2页
基于labeled+ld的微博用户兴趣识别系统的-研究和实现_第3页
基于labeled+ld的微博用户兴趣识别系统的-研究和实现_第4页
基于labeled+ld的微博用户兴趣识别系统的-研究和实现_第5页
资源描述:

《基于labeled+ld的微博用户兴趣识别系统的-研究和实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据摘要微博是一个基于用户关系的信息分享、传播以及获取平台,内容简单、用户之间的交互性强、使用门槛低是微博的特点,近年在我国取得了快速发展。微博作为当下最流行的社会化网络服务媒体,基于微博的用户兴趣挖掘研究也迅速成为一个新兴的研究课题:首先发现感兴趣的微博账户与信息是微博用户最重要的活动,微博平台则需要准确地基于用户的兴趣进行相关信息的推荐;其次用户兴趣识别系统是实现精准广告投放的基础,兴趣挖掘的准确度直接关系到广告投放的效果,关系到微博平台的盈利。本文作者在分析新浪微博的信息特点和用户行为特点的基础上,学习了传统

2、的使用词向量进行文本特征表示的文本分类算法,并基于无监督、无层次结构的主题模型LDA(LatentDirichletAllocation,隐含狄利克雷分配),扩展实现了有监督、无层次结构的主题模型LabeledLDA,用于对微博用户兴趣分布的识别。本文主要研究了用户兴趣识别过程中涉及到的关键问题,主要包括以下三个方面的工作:(1)使用Python开发针对新浪微博的定制网络爬虫,绕开微博API的限制,实现微博文本的并发快速获取,为研究工作提供了及其丰富的实验数据;(2)学习文本分类技术,使用有监督、无层次结构的主题模型L

3、abeledLDA,用微博主题账号的微博文本进行模型的训练,用于对其他微博用户兴趣的预测:(3)考虑海量数据的场景,使用Hadoop、Hive等分布式框架,实现海量中文文本数据的分布式分词与预处理。最终,通过用户兴趣识别系统得到的用户兴趣分布的数据在实际中成功的应用于用户个性化词云的产生与展现、搜索结果的调整与优化、广告的个人兴趣化定向投放等方面。关键词:文本分类;兴趣识别;LDA;LabeledLDA万方数据jE哀变适太堂童些亟±堂僮诠塞△旦墨!&△£!ABSTRACTMicro.blogiSarelationbas

4、edplatformforinformationsharing,communicationandaccess,withthecharacteristicsofsimplecontent,stronginteractivityandlowuseagethreshold,SOthatitmadeagrowthspurtin0111"country.Asapopularsocialnetworkingservicemedia,userinterestsresearchbasedonmicro-bloghasquicklybe

5、comeamajorresearchtopic.Herearethereasons:firstlyfmdinginterestingmicro.blogaccountsandinformationiSthemostimportantactivitymostmicro’blogusersdo,SOthemicro.blogplatformshouldrecommendthoseinformationaccuratelybasedoneveryuser’sinterest;secondlytheuserinterestsd

6、etectionsystemisthebasetorealizepreciseadvertising,andinterestsminingaccuracyisdirectlyrelatedtotheeffectofadvertisingandthemicro—blogplatformprofits.Inthisproject,theauthorlearnedthealgorithmoftraditionaltextclassification,whichoftenusevectorspacemodelfortextfe

7、aturerepresentation,expandedunsupervisednon-hierarchicaltopicmodelLDAandrealisedthesupervisionnon-hierarchytopicmodelLabeledLDAtoidentifySinamicro—blog’Suserinterests·Thispapertalksaboutthekeyissuesofdetectingtheuser’sinterests,mainlyinthefollowingthreeaspects:(

8、1)CustomizeScrapy,acrawlerflamewritteninPython,tohavea、7~,ebcrawlertocrawlSinamicro.blog.SurpassingthelimitfromAPI,getthemicro-blogtextconcurrently,andobtainplentyofe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。