基于用户角色定位微博热点话题检测方法

基于用户角色定位微博热点话题检测方法

ID:6074859

大小:36.00 KB

页数:12页

时间:2018-01-02

基于用户角色定位微博热点话题检测方法_第1页
基于用户角色定位微博热点话题检测方法_第2页
基于用户角色定位微博热点话题检测方法_第3页
基于用户角色定位微博热点话题检测方法_第4页
基于用户角色定位微博热点话题检测方法_第5页
资源描述:

《基于用户角色定位微博热点话题检测方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于用户角色定位微博热点话题检测方法  摘要:针对在海量微博数据中提取热点话题效率较低的问题,在对用户角色分类的基础上,提出了一种新的热点话题检测方法。首先,根据用户关注度进行用户角色定位,过滤掉部分用户的噪声数据;其次,采用结合语义相似度的TFIDF函数计算特征权重,降低语义表达形式带来的误差;然后,用改进的SinglePass聚类算法进行话题聚类,提取出微博话题;最后,根据微博转发数、评论数等对话题热度进行评估排序,从而发现热点话题。实验表明,所提出的方法使漏检率和误检率分别平均降低12.09%和2.37%,有效地提高了话题检测的正确率

2、,验证了该方法的可行性。关键词:微博;话题检测;用户角色;语义相似度;SinglePass聚类0引言微博是一种快速兴起的网络新媒体形式。在海量微博数据中,隐藏着大量热点话题。微博热点话题[1]一般指突发性公共事件、具有新闻特点的信息发布、引起公众共鸣或关于某些焦点的激烈讨论。微博热点话题快速检测,在网络舆情监控、重大事件监测预防方面具有重要的现实意义。12话题(Topic)[2]是一个核心事件或活动以及与之直接相关的事件或活动。由于事件通常由某些原因引起,发生在特定时间、地点,涉及特定对象,并伴随某些必然结果,因此话题就是若干与某事件相关文

3、本的集合。话题检测与跟踪(TopicDetectionandTracking,TDT)[3]的主要任务是将语言形式的数据流分割为不同的新闻报道,监控对新话题的报道,并将涉及某话题的报道组织起来呈现给用户。话题检测(TopicDetection,TD)是TDT的五项研究任务之一[4]。目前TD研究常用的技术有中心向量法[5-6]、K最邻近(KNearestNeighbor,KNN)节点算法[6]、Kmeans[7]、单遍聚类算法[5,8]等。文献[9]采用带时间窗的单遍聚类方法进行话题检测。文献[10-11]研究的核心算法是单遍聚类算法。文献

4、[11]以基于中心向量的单遍检测算法为基础,采用凝聚法实现层次话题检测,并提出了基于时间分批处理的检测策略;文献[12]结合使用KNN和支持向量机(SupportVectorMachine,SVM)分类算法进行了话题检测与话题跟踪的研究。本文将话题检测技术应用于微博平台。在分析微博平台中用户角色的基础上,提出了一种基于用户角色定位的微博热点话题检测方法。首先对用户角色进行划分定位,对焦点用户进行重点关注;然后根据微博文本的特点,采用结合语义相似度的TFIDF(TermFrequencyInverseDocument12Frequency)频

5、率函数计算权重;再用改进的SinglePass聚类算法进行话题聚类;最后通过对话题进行热度评估排序找出某一时间段内的微博热点话题。1用户角色定位微博话题是否热点,不仅与微博内容有关,也和其发布者和话题传播者有关。微博用户间的关系可表示为图1所示的有向图。由于每个微博用户都有一定数量的粉丝,这些关注者会依据自己的兴趣在一段时间内转发、评论或补充相关微博,从而扩大对同一事件的关注,使该事件成为热点话题。文献[13]的研究表明,微博平台上90%的微博来自于10%的核心用户。可见,用户的关注度在一定程度上决定了其微博或转发的微博成为热点话题的潜力。

6、本文根据对平台上所有用户关注度的统计得出平均关注因数Uaverage,通过单个用户的Uvalue与Uaverage的对比,将用户划分为以下四种角色:1)焦点用户(Uhot)。关注因数远大于Uaverage。多是公共机构、公众人物或关注度较高的普通用户,具有较多粉丝,是大部分热点话题的发布者。2)活跃用户(Uactive)。关注因数略高于或等于Uaverage。多是微博平台的资深用户,有较多粉丝,是少部分热点话题的发布者,对传播信息起到较大的作用。123)一般用户(Unormal)。等于或略低于Uaverage。这类用户有一定的粉丝数,其微博

7、行为主要用于社交活动,参与评论或转发的热情较低。4)休眠用户(Usleep)。用户关注度通常接近于0。主要是注册但并不经常使用的用户,粉丝数很少或接近0,偶尔登录但只浏览自己关注的信息,很少参与评论或转发。针对上述角色定位规则,本文采用了用户角色划分算法UserRole,对微博信息进行粗度过滤。算法操作如下:2基于用户角色定位的话题检测话题检测包括信息采集、文本预处理、分词和词频统计、文本向量化和话题聚类等步骤,最后对检测到的话题进行话题热度评估排序。具体流程如图2所示。2.1文本预处理文本预处理的目标是过滤噪声数据,提取微博正文用户的属性

8、信息(包括用户ID、发布时间、粉丝数等)。本文在预处理阶段运用了用户角色划分规则,对微博信息进行了粗度过滤。预处理过程分为以下3步:1)提取微博标记正文及用户属性信息,过滤噪声数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。