基于个人微博主题词提取研究

基于个人微博主题词提取研究

ID:16099679

大小:782.50 KB

页数:10页

时间:2018-08-07

基于个人微博主题词提取研究_第1页
基于个人微博主题词提取研究_第2页
基于个人微博主题词提取研究_第3页
基于个人微博主题词提取研究_第4页
基于个人微博主题词提取研究_第5页
资源描述:

《基于个人微博主题词提取研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于个人微博主题词提取研究摘要:微博作为一个新兴的社交媒体服务,是目前最流行的社交应用之一,微博数据具有实施动态特性,因此人们可以通过分析微博数据检测现实生活中的事件,同时微博数据的海量、短文本和丰富的社交关系等特性也为事件检测带来了新的挑战。综合考虑了微博数据特有的文本特征(转帖、评论、赞数、内嵌超链接(URL))提出了一种更有效的基于个人微博数据的主题词检测(Personalweibodatasubjecttest,PWDST)方法。关键词:微博数据;文本特征;主题词检测;中图分类号:TP392文献标识码:A文章编号:Baseonth

2、eresearchofpersonalmicro-blogpubliceventsdetectionAbstract:Microblogasanewsocialmediaservices,iscurrentlyoneofthemostpopularsocialnetworkingapplications,weibodatatoimplementdynamiccharacteristics,sopeoplecanthroughtheanalysisofweibodatadetectioninreallifeevents,andthemass

3、,weiboseriesBenandrichinfeaturessuchassocialrelationshipsandbringsnewchallengesforeventdetection.Consideringtheweibodatacharacteristicofthetextcharacteristics(repost,reviews,andnumberofpraise,embeddedhyperlinks(URL))isproposedbasedonamoreeffectivePersonalweibodatasubjectd

4、etection(Personalweibodatasubjecttest,PWDST)method.Keywords:weibodata;Thetextcharacteristic;Subjectheadingsdetection;1.引言微博作为一个新兴的社交媒体服务,是目前最流行的社交应用之一。它允许用户随时随地使用移动设备发布不超过140字符的信息,以更新自己的状态。对微博应用等方面的研究,是最近几年的研究热点。新浪微博是国内最流行的微博网站,用户注册人数已超过3亿。微博数据包括以下五个特性:1)数据海量:以新浪微博为例,目前微博

5、用户平均每天都要发送超过1亿条帖子,平均每秒发送的帖子数高达1000条/s,这使得微博数据量非常巨大。2)短文本性:根据微博网站规定,每条微博帖子的长度不能超过140个字符,因此微博帖子较短小精干。3)文本缺失性:受发帖字数限制,用户只能用精简的语言发表微博,文本规范性和完整性较差。为了更好地阐述自己的观点,用户在发帖时嵌入超文本,如图片、视频和网页链接等。4)实时性:移动客户端的迅猛增长,使得人们在日常生活中可以随时随地发帖,从而微博数据具有实时性。1)丰富的社交信息:微博用户间通过“关注”关系形成了一个庞大而复杂的社交网络,并且通过转

6、发、评论等操作引入更丰富的社交关系,这使得微博数据具有丰富的社交信息。事件检测在学术界是备受关注的研究热点,传统的事件检测方法是通过构造词汇-文本特征矩阵分析事件,而微博数据的短文本性和文本缺失性会导致特征矩阵高度稀疏,从而使检测结果的准确率难以令人满意。另一方面微博数据中丰富的社交信另一方面微博数据中丰富的社交信息、超文本数据和特有的转发、评论数据为事件检测提供了更丰富的数据基础,而传统的方法并不能很好的将上述数据综合考虑进去。针对微博数据的特性和传统事件检测方法的缺陷,本文提出了一种更有效的基于个人微博数据的主题词检测(weiboda

7、tasubjecttest,WDST)方法。该研究方法综合考虑微博数据特有的文本特征(转帖、评论、赞数、内嵌超链接(URL)等)、实时性特征进行主题词的监测。本文的主要创新点有以下两点:1)分析微博数据的文本特征时,综合考虑转发、评论、赞数、内嵌外部链接(URL)等并提出了相应的加权方案,计算出微博信息中每个关键词的热点权重。2)改变了以往的先对数据进行权重值的计算再根据权重值进行聚类,本文采取的方式使先聚类,在对其分别进行特征值的计算。3)对词性的权重的划分更为详细。2.相关工作随着微博应用的推广和移动客户端的迅猛增长,人们往往第一时间

8、在微博上发帖“报道”生活中的某一事件,基于微博数据进行事件检测成为国内外的一个热点研究话题,但已有的工作较少。绝大多数已有的事件检测研究工作都是针对文本新闻和网页新闻进行分析的。另外,与事件检

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。