多视图微博话题检测方法的研究

多视图微博话题检测方法的研究

ID:34582013

大小:1.18 MB

页数:64页

时间:2019-03-08

多视图微博话题检测方法的研究_第1页
多视图微博话题检测方法的研究_第2页
多视图微博话题检测方法的研究_第3页
多视图微博话题检测方法的研究_第4页
多视图微博话题检测方法的研究_第5页
资源描述:

《多视图微博话题检测方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、国内图书分类号:TP311.12学校代码:10213国际图书分类号:004.628密级:公开工学硕士学位论文多视图微博话题检测方法研究硕士研究生:方一向导师:叶允明教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2012年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311.12U.D.C:004.628DissertationfortheMasterDegreeinEngineeringRESEARCHONMULTI-VIEWTOPICDETECTIONMETHODINTWITTERCandidate:YixiangFangSupervi

2、sor:Prof.YunmingYeAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:Dec,2012Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着计算机和网络技术的蓬勃发展,社会化媒体越来越受到广大网民的日益关注。近年来,微博作为一种新型的社会化媒体,已经得到了人们的广泛关注,

3、许多国内外的重大事件都是通过它在第一时间传播给人们。海量的微博短文本数据中蕴含着大量有价值的热点话题,自动检测这些话题可以更好为人们提供更多全方位的动态消息。然而,传统的话题检测算法已经无法满足这种新型社会化媒体的短文本数据。针对此问题,本论文主要研究了一种基于多视图技术的微博话题检测方法,该方法充分考虑了微博文档之间的语义关系和社会化关系,具有较好的话题检测效果。论文的主要工作和创新点如下。首先,本文提出了一种采用微博间语义关系和社会关系的多视图微博话题检测方法。在表征微博文之间关系的时候,本文不但利用了传统文本语义关系,也利用了博文之间社会关系,从而弥补了语义关系的不足。博文间的语义关系

4、和社会关系可以构成一个多视图,然后我们采用基于谱聚类的多视图聚类算法对微博博文进行聚类,并从话题簇中提取出具有代表性的关键词。文章通过实验验证了多视图聚类比任意一种单视图聚类有着更好的聚类效果。其次,为了更准确地表征博文间语义关系,本文提出了一种新的基于后缀树的文档相似度度量算法。在该方法中,首先通过后缀树检测出文档间的共同短语,由于短语比单个词的随机组合有着更丰富的语义信息,然后对短语中的词进行额外加权,因而能更准确的度量文档之间的相似度。实验表明通过对短语进行加权,可以更好的度量博文之间的语义关系。再次,在表征微博博文间社会化关系时,我们提出了采用微博中的社会化关系符号如#Mention

5、、@评论等来衡量它们之间的关系。实验表明它是一种非常有效的衡量博文间关系的方式。最后,设计和实现了一个基于多视图的微博话题检测软件系统。本系统为采用多视图技术进行话题检测提供了一个工具,同时也为后续研究和算法实现提供了一个基础平台。关键词:微博话题检测;多视图聚类;后缀树;-I-哈尔滨工业大学工学硕士学位论文AbstractWiththestrikingboomingofthedevelopmentofcomputerandinternettechniques,moreandmoreattentionsofnetizensarefocusedonsocialmedia.Micro-blogg

6、ing,anewkindofsocialmedia,hasbeenwidelyrecognizedandacceptedbypeoplerecently,andmassiveofimportanteventsarespreadtopeoplebyitinthefirsttime.Lotsofhottopicsareembeddedinthosemassiveamountsofshorttextsinmicro-bloggingandautomatictopicdetectiontechniquescanprovidepeopleall-arounddynamicmessages.Howeve

7、r,traditionaltopicdetectionalgorithmsarenotsuitableformicro-blogging,foritsextremelimitationofthenumberofwordsintext.Inordertosolvethoseproblems,thispaperstudiesanewtopicdetectionmethodbyusingmulti-viewtech

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。