中文微博热点话题挖掘研究.pdf

中文微博热点话题挖掘研究.pdf

ID:54368082

大小:401.22 KB

页数:5页

时间:2020-04-29

中文微博热点话题挖掘研究.pdf_第1页
中文微博热点话题挖掘研究.pdf_第2页
中文微博热点话题挖掘研究.pdf_第3页
中文微博热点话题挖掘研究.pdf_第4页
中文微博热点话题挖掘研究.pdf_第5页
资源描述:

《中文微博热点话题挖掘研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第29卷第6期Statis统tics计&与In信{or息mat论ion坛Forum2014年6月Vo1.29No.6Jun,2014【统计应用研究】中文微博热点话题挖掘研究何跃,帅马恋,冯韵(四川大学商学院,四川成都610064)摘要:微博热点话题代表公众对现实生活问题的态度,对微博热点话题的识别有益于网络舆情监控。基于话题检测与跟踪技术设计出中文微博热点话题识别流程。首先通过K-means文本聚类归纳出话题,然后进行话题影响力计算和分析,最后通过话题影响力;kd,iRfl4热点话题。实证结果表明,热点话题的“召回率”较高,影响力较大。话题影响力的构建为相关企业或政府针

2、对话题热度大小采取不同的舆情监测策略提供了理论依据。关键词:微博;话题影响力;话题检测与跟踪中图分类号:G2O3文献标志码:A文章编号:1007-3116(2014)O6一O086一O5的逐步加深,关于网络热点话题识别与发现的研究也一、引言逐渐丰富,如从BBS挖掘热点话题、从Blog上发现热微博已经成为公众信息传播的主要网络平台之点话题、网页舆情观点挖掘等,但基于微博平台的热一,微博上的热点话题也代表了众多网民关注的热点话题研究比较少。孙胜平结合现有的普通网页的点。掌握微博热点话题,对政府舆情监测与引导和TDT技术,重点研究了适用于中文微博的网页采集、企业制定营销策略都

3、具有十分重要的意义。信息抽取、热点话题检测以及话题跟踪技术,侧重研微博起源于国外,作为近年来最热门的互联网究了相关技术与算法,并对每一种技术通过实验进行应用,相关研究逐步增加。从目前相关研究文献来测评,但对热点话题的识别缺少系统研究[4]。杨冠超看,与微博相关的基础性研究较为普遍,如微博(特结合微博平台上的时间序列和文本特点提出话题热别是twitter)的内容特点、技术特点、使用微博的原度预测模型TopicRank,通过划分时间片,结合话题因或社会目的等,同时,网络信息爆炸式增长和网络的关键词集对话题在连续时间段内的影响力进行计舆情分析的需求也使网络热点话题研究在国外受

4、到算,从而预测话题在未来一段时间内的影响力变化趋广泛关注。目前具有针对性地利用网络信息进行的势,但该研究是在定性的基础上先判断出热点话题后研究主要包括两类:一类是web数据挖掘研究,另再去跟踪,并对话题的未来热度进行预测,略显不够一类是利用话题检测与跟踪(TopicDetectionand严谨_5]。赵前东等也通过构建话题活性模型以寻找Tracking,TDT)技术进行热点话题识别与跟踪研热点话题,后期也通过TDT进行效果验证,但是在数究[】]。TDT技术已逐渐成为当前信息处理领域据预处理中采用正则表达式,略显客观性不足,且不的研究热点。该项技术中涉及许多算法与模型的运

5、能自动化处理[6]。可见,TDT技术被引入到微博研用,因此相关算法及模型的优化也成为研究热点,如究中已成趋势,但现有研究主要针对某些相关技术进ChangkiLee等针对TDT技术中unigram和big-行研究或改进,是在热点话题已出现的基础上再利用ram语言模型的弱点,提出了结构依赖语言模型[3]。TDT技术对热点话题进行热度分析。本文试图通过随着国内学术界对大量网络信息利用价值认识TDT技术对微博话题进行热度分析,挖掘出潜在的收稿日期:2O13—11—18作者简介:何跃,男,重庆人,教授,管理科学与工程博士,研究方向:宏观经济,数据挖掘,信息管理与决策;帅马恋,女,

6、湖南醴陵人,硕士生,研究方向:数据挖掘,信息管理与信息系统;冯韵,女,四川巴中人,硕士生,研究方向:数据挖掘,信息管理与信息系统。86何跃,帅马恋,冯韵:中文微博热点话题挖掘研究热点话题。空间,而特征权重则是每个词对应每一维的取值,于本文借鉴TDT技术,结合中文微博的特点,设是,一个文档DJ转化为特征向量Dj可表示为:计出一种较为简易的热点话题发现与分析流程。首先通过文本聚类找出话题,再结合用户行为对微博D===(∞ntil,Wti2,⋯,Woto),1≤≤M(1)其中t是特征项,Wf是特征权重,M是文本td中的热度的影响提出衡量话题热度的热点话题影响力,特征项总数。另

7、外,文本中作为特征项的词不能重最后通过TDT技术中的效果检验标准来衡量话题复,即各特征项t互异,且文本的内部结构不需要影响力对话题热度衡量的有效性。这不仅为热点话考虑,因此特征项t无先后顺序。题的识别提供了科学依据,还为后续热点话题的深(三)K-means文本聚类度分析与趋势预测提供了支撑。K-means算法以欧式距离作为相似性的评价指二、相关理论标,即认为两个对象的距离越近,其相似度就越大,得到紧凑且独立的簇是聚类的最终目标。K-means(一)话题检测与跟踪技术TDT作为一种主题检索技术,其特点主要在于算法中距离的计算公式如下:关注与

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。