基于MB_LDA模型的微博主题挖掘

基于MB_LDA模型的微博主题挖掘

ID:37816870

大小:714.66 KB

页数:8页

时间:2019-05-31

基于MB_LDA模型的微博主题挖掘_第1页
基于MB_LDA模型的微博主题挖掘_第2页
基于MB_LDA模型的微博主题挖掘_第3页
基于MB_LDA模型的微博主题挖掘_第4页
基于MB_LDA模型的微博主题挖掘_第5页
资源描述:

《基于MB_LDA模型的微博主题挖掘》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、计算机研究与发展ISSN1000-1239?CN11-1777?TPJournalofComputerResearchandDevelopment48(10):1795-1802,2011基于MB-LDA模型的微博主题挖掘张晨逸1孙建伶1丁轶群21(浙江大学计算机科学与技术学院杭州310027)2(浙江大学工业技术研究院杭州310027)(zhangchenyi.zju@gmail.com)TopicMiningforMicroblogBasedonMB-LDAModel1,SunJianling12ZhangChenyiandDingYiqun1(Colle

2、geofComputerScienceandTechnology,ZhejiangUniversity,Hangzhou310027)2(IndustrialTechnologyResearchInstituteofZhejiangUniversity,Hangzhou310027)AbstractAsmicrobloggrowsmorepopular,serviceslikeTwitterhavebecomeinformationprovidersonawebscale.Earlyworkonmicroblogfocusedmoreonitsuserrela

3、tionshipandcommunitystructure,withoutconsideringthevalueofcontent.Sotheresearchonmicroblogrequiresachangefromsolelyusersrelationshipanalysistoitscontentmining.Althoughtraditionaltextminingmethodshavebeenstudiedwell,noalgorithmisdesignedspeciallyformicroblogdata,whichcontainstructur

4、edinformationonsocialnetworkbesidesplaintext.Inthispaper,weproposeanovelprobabilisticgenerativemodelbasedonLDA,calledMB-LDA,whichissuitabletomodelthemicroblogdataandtakesbothcontactrelationanddocumentrelationintoconsiderationtohelptopicmininginmicroblog.WepresentaGibbssamplingimplem

5、entationforinferenceofourmodel,andfindnotonlythetopicsofmicroblog,butalsothetopicsfocusedbycontactorsaccordingtothefinalresults.Besides,ourmodelcanbeextendedtomanytextsassociatedwithsocialnetworkingsuchasE-mailsandforumposts.ExperimentalresultsonactualdatasetshowthatMB-LDAmodelcanof

6、feraneffectivesolutiontotopicminingformicroblog.Keywordsmicroblog;topicmining;LDA;probabilisticgenerativemodel;socialnetwork摘要随着微博的日趋流行,Twitter等微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博本身内容的挖掘进行转变.在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建模.提出了

7、一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本关联关系,来辅助进行微博的主题挖掘.采用吉布斯抽样法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题.此外,模型还能推广到许多带有社交网络性质的文本中.在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘.关键词微博;主题挖掘;LDA;概率生成模型;社交网络中图法分类号TP181收稿日期:2011-06-23;修回日期:2011-08-23基金项目:“核高基”国家科技重大专项基金项目(2010ZX01042-002-003)1796计算机研究与发展2

8、011,48(10)微博作为Web2.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。