欢迎来到天天文库
浏览记录
ID:34153887
大小:5.89 MB
页数:54页
时间:2019-03-04
《基于labeled+ld的微博用户兴趣识别系统的-研究和实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、万方数据摘要微博是一个基于用户关系的信息分享、传播以及获取平台,内容简单、用户之间的交互性强、使用门槛低是微博的特点,近年在我国取得了快速发展。微博作为当下最流行的社会化网络服务媒体,基于微博的用户兴趣挖掘研究也迅速成为一个新兴的研究课题:首先发现感兴趣的微博账户与信息是微博用户最重要的活动,微博平台则需要准确地基于用户的兴趣进行相关信息的推荐;其次用户兴趣识别系统是实现精准广告投放的基础,兴趣挖掘的准确度直接关系到广告投放的效果,关系到微博平台的盈利。本文作者在分析新浪微博的信息特点和用户行为特点的基础上,学习了传统
2、的使用词向量进行文本特征表示的文本分类算法,并基于无监督、无层次结构的主题模型LDA(LatentDirichletAllocation,隐含狄利克雷分配),扩展实现了有监督、无层次结构的主题模型LabeledLDA,用于对微博用户兴趣分布的识别。本文主要研究了用户兴趣识别过程中涉及到的关键问题,主要包括以下三个方面的工作:(1)使用Python开发针对新浪微博的定制网络爬虫,绕开微博API的限制,实现微博文本的并发快速获取,为研究工作提供了及其丰富的实验数据;(2)学习文本分类技术,使用有监督、无层次结构的主题模型L
3、abeledLDA,用微博主题账号的微博文本进行模型的训练,用于对其他微博用户兴趣的预测:(3)考虑海量数据的场景,使用Hadoop、Hive等分布式框架,实现海量中文文本数据的分布式分词与预处理。最终,通过用户兴趣识别系统得到的用户兴趣分布的数据在实际中成功的应用于用户个性化词云的产生与展现、搜索结果的调整与优化、广告的个人兴趣化定向投放等方面。关键词:文本分类;兴趣识别;LDA;LabeledLDA万方数据jE哀变适太堂童些亟±堂僮诠塞△旦墨!&△£!ABSTRACTMicro.blogiSarelationbas
4、edplatformforinformationsharing,communicationandaccess,withthecharacteristicsofsimplecontent,stronginteractivityandlowuseagethreshold,SOthatitmadeagrowthspurtin0111"country.Asapopularsocialnetworkingservicemedia,userinterestsresearchbasedonmicro-bloghasquicklybe
5、comeamajorresearchtopic.Herearethereasons:firstlyfmdinginterestingmicro.blogaccountsandinformationiSthemostimportantactivitymostmicro’blogusersdo,SOthemicro.blogplatformshouldrecommendthoseinformationaccuratelybasedoneveryuser’sinterest;secondlytheuserinterestsd
6、etectionsystemisthebasetorealizepreciseadvertising,andinterestsminingaccuracyisdirectlyrelatedtotheeffectofadvertisingandthemicro—blogplatformprofits.Inthisproject,theauthorlearnedthealgorithmoftraditionaltextclassification,whichoftenusevectorspacemodelfortextfe
7、aturerepresentation,expandedunsupervisednon-hierarchicaltopicmodelLDAandrealisedthesupervisionnon-hierarchytopicmodelLabeledLDAtoidentifySinamicro—blog’Suserinterests·Thispapertalksaboutthekeyissuesofdetectingtheuser’sinterests,mainlyinthefollowingthreeaspects:(
8、1)CustomizeScrapy,acrawlerflamewritteninPython,tohavea、7~,ebcrawlertocrawlSinamicro.blog.SurpassingthelimitfromAPI,getthemicro-blogtextconcurrently,andobtainplentyofe
此文档下载收益归作者所有