中文微博热点话题挖掘研究.pdf

中文微博热点话题挖掘研究.pdf

ID:54368082

大小:401.22 KB

页数:5页

时间:2020-04-29

上传者:简单2019
中文微博热点话题挖掘研究.pdf_第1页
中文微博热点话题挖掘研究.pdf_第2页
中文微博热点话题挖掘研究.pdf_第3页
中文微博热点话题挖掘研究.pdf_第4页
中文微博热点话题挖掘研究.pdf_第5页
资源描述:

《中文微博热点话题挖掘研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

第29卷第6期Statis统tics计&与In信{or息mat论ion坛Forum2014年6月Vo1.29No.6Jun,2014【统计应用研究】中文微博热点话题挖掘研究何跃,帅马恋,冯韵(四川大学商学院,四川成都610064)摘要:微博热点话题代表公众对现实生活问题的态度,对微博热点话题的识别有益于网络舆情监控。基于话题检测与跟踪技术设计出中文微博热点话题识别流程。首先通过K-means文本聚类归纳出话题,然后进行话题影响力计算和分析,最后通过话题影响力;kd,iRfl4热点话题。实证结果表明,热点话题的“召回率”较高,影响力较大。话题影响力的构建为相关企业或政府针对话题热度大小采取不同的舆情监测策略提供了理论依据。关键词:微博;话题影响力;话题检测与跟踪中图分类号:G2O3文献标志码:A文章编号:1007-3116(2014)O6一O086一O5的逐步加深,关于网络热点话题识别与发现的研究也一、引言逐渐丰富,如从BBS挖掘热点话题、从Blog上发现热微博已经成为公众信息传播的主要网络平台之点话题、网页舆情观点挖掘等,但基于微博平台的热一,微博上的热点话题也代表了众多网民关注的热点话题研究比较少。孙胜平结合现有的普通网页的点。掌握微博热点话题,对政府舆情监测与引导和TDT技术,重点研究了适用于中文微博的网页采集、企业制定营销策略都具有十分重要的意义。信息抽取、热点话题检测以及话题跟踪技术,侧重研微博起源于国外,作为近年来最热门的互联网究了相关技术与算法,并对每一种技术通过实验进行应用,相关研究逐步增加。从目前相关研究文献来测评,但对热点话题的识别缺少系统研究[4]。杨冠超看,与微博相关的基础性研究较为普遍,如微博(特结合微博平台上的时间序列和文本特点提出话题热别是twitter)的内容特点、技术特点、使用微博的原度预测模型TopicRank,通过划分时间片,结合话题因或社会目的等,同时,网络信息爆炸式增长和网络的关键词集对话题在连续时间段内的影响力进行计舆情分析的需求也使网络热点话题研究在国外受到算,从而预测话题在未来一段时间内的影响力变化趋广泛关注。目前具有针对性地利用网络信息进行的势,但该研究是在定性的基础上先判断出热点话题后研究主要包括两类:一类是web数据挖掘研究,另再去跟踪,并对话题的未来热度进行预测,略显不够一类是利用话题检测与跟踪(TopicDetectionand严谨_5]。赵前东等也通过构建话题活性模型以寻找Tracking,TDT)技术进行热点话题识别与跟踪研热点话题,后期也通过TDT进行效果验证,但是在数究[】]。TDT技术已逐渐成为当前信息处理领域据预处理中采用正则表达式,略显客观性不足,且不的研究热点。该项技术中涉及许多算法与模型的运能自动化处理[6]。可见,TDT技术被引入到微博研用,因此相关算法及模型的优化也成为研究热点,如究中已成趋势,但现有研究主要针对某些相关技术进ChangkiLee等针对TDT技术中unigram和big-行研究或改进,是在热点话题已出现的基础上再利用ram语言模型的弱点,提出了结构依赖语言模型[3]。TDT技术对热点话题进行热度分析。本文试图通过随着国内学术界对大量网络信息利用价值认识TDT技术对微博话题进行热度分析,挖掘出潜在的收稿日期:2O13—11—18作者简介:何跃,男,重庆人,教授,管理科学与工程博士,研究方向:宏观经济,数据挖掘,信息管理与决策;帅马恋,女,湖南醴陵人,硕士生,研究方向:数据挖掘,信息管理与信息系统;冯韵,女,四川巴中人,硕士生,研究方向:数据挖掘,信息管理与信息系统。86 何跃,帅马恋,冯韵:中文微博热点话题挖掘研究热点话题。空间,而特征权重则是每个词对应每一维的取值,于本文借鉴TDT技术,结合中文微博的特点,设是,一个文档DJ转化为特征向量Dj可表示为:计出一种较为简易的热点话题发现与分析流程。首先通过文本聚类找出话题,再结合用户行为对微博D===(∞ntil,Wti2,⋯,Woto),1≤≤M(1)其中t是特征项,Wf是特征权重,M是文本td中的热度的影响提出衡量话题热度的热点话题影响力,特征项总数。另外,文本中作为特征项的词不能重最后通过TDT技术中的效果检验标准来衡量话题复,即各特征项t互异,且文本的内部结构不需要影响力对话题热度衡量的有效性。这不仅为热点话考虑,因此特征项t无先后顺序。题的识别提供了科学依据,还为后续热点话题的深(三)K-means文本聚类度分析与趋势预测提供了支撑。K-means算法以欧式距离作为相似性的评价指二、相关理论标,即认为两个对象的距离越近,其相似度就越大,得到紧凑且独立的簇是聚类的最终目标。K-means(一)话题检测与跟踪技术TDT作为一种主题检索技术,其特点主要在于算法中距离的计算公式如下:关注与特定事件主题相关的数据。传统的检索技术一∑∑(xj—ui)。(2)是从内容来检索、确定文档的分类,而TDT技术是i=1xi∈SfK-means算法流程:基于事件,利用分析文档与事件主题联系来获取特定主题信息,它从来源数据流中自动发现主题并把第一步,从数据对象中任意选择K个对象(K与主题相关的内容联系在一起。TDT的研究任务值需要预先设定)作为初始聚类中心。第二步,计算剩下的对象与这些聚类中心的相似度(距离),并分主要包括五部分:对新闻广播等报道进行切分(报道切分),检测未知话题(话题检测),跟踪已知话题(话别将它们分配给最相似的(聚类中心所代表的)类。题跟踪),检测未知话题首次相关报道(首次报道检第三步,重新计算每个新类的聚类中心(该聚类中所测)以及检测报道间相关性(报道关联性检测)[7]。有对象的均值)。第四步,不断重复第二、三步,直到(二)中文分词及词性标注标准测度函数开始收敛为止,一般采用均方差作为中文分词就是将汉字序列切分成有意义的词,以标准测度函数。字为单位,句和段则通过标点等分隔符来划界。目前该算法在处理大数据集时是相对高效和可伸缩主流的中文分词算法分为四类:基于字符串匹配的分的,计算的复杂度为O(N),其中N是数据对象的词,基于理解的分词,基于统计和基于语义的分词L8]。数目,£是迭代的次数(一般K≤N,t≤N,同时算法词性标注是根据句子上下文环境给句中的每个对顺序不太敏感,因此较适合对VSM表示的文本集词标记一个正确的词性,主要是机器针对多标记词进行聚类。本文聚类效果的验证采用类平均相似度,(即有多种词性的词)和未登录词(即在训练语料中公式为:未出现的词)标记词性。词性标注技术与分词技术AV,G,、CT(avg(sim))T(SIM):一_—————一样,在自然语言处理、机器翻译、文本自动检索及L/T分类、文字识别、语音识别等实际应用中占有重要地(ET)(3)位[5]。目前比较典型的标注算法归纳起来有:基于其中AVG(SIM)表示类丁的平均相似度;Cr表示规则的方法,基于统计的方法,规则与统计相结合的类T所包含的微博条数;厂f(avg(sim))表示类T中方法。本文选用的是规则与统计相结合的方法。单条微博文t的个体平均相似度,即t与类T中其余(三)向量空间模型微博文的相似程度之和取平均值。将类中所有微博向量空间模型(VectorSpaceModel,VSM)是文的个体平均相似度之和取一次平均值,从而得到一个应用于信息过滤、信息撷取、索引评估相关性的类的平均相似度。代数模型,文本分析对象通常是以词为单位的VSM三、研究设计数据[9]。运用这个模型把文本表示为向量,就可以将文本处理简化为向量空间中的向量运算。当文档【一)识别流程转化为向量时,文档中每个词对应向量的每个特征本文基于TDT技术设计出中文微博热点话题项维度,所有文档中的词所对应的维度构成了整个识别流程,主要环节如图1所示。87 统计与信息论坛题了、的影响力为:(塑)聂一Inf(T)===∑Info(£)+∑Infj(£):1=1一1,2,⋯,,z(6)兰翌r—.1I!坌望lHl竺兰Info(t)一ifollowedl×丽1(7)基于IF.IDF算法计算特l征词权重,建立VSMl其中followed为发布微博t的用户的关注人数(受众数);N()为时间段Ah内该用户发布的微博总条基于聚类算法进行文本聚类卜—聚类结果数。实际情况中,并非所有受众都随时关注该用户的兰鲞望塑墨l新动态,因此假定每个受众接收到该条微博的内容的概率为,即一段时间内,该用户发布的微博数量越多,那么所发布的微博t就越容易被淹没。计算影响力,判定热点+—__叫热点话题该用户发布的微博t被受众接收的次数等于概率与结束受众数的乘积,也就是t的直接影响力。InfJ(£)一a×lcommentsl+×IretweetsI(8)图1中文微博热点话题识别流程图其中comments为微博t的评论条数,retweets为微首先通过微博爬虫系统获取所需的数据,如微博t的直接转发次数,系数口>0,>0,a+J9—1。博内容、评论数、转发数、受众数等;接着从获取数据微博被评论一次仅表明该条微博对评论者有所影中提取话题识别的数据源,利用中文分词处理过滤响,而转发一次后,该条微博的影响将会扩散,转发数据;对预处理后的微博内容中的每个特征词,利用对微博影响力有放大效应,因此一般情况下>a,特征词权值计算方法TF-IDF(TermFrequency—具体参数值可运用经验或专家打分等手段来确定。InverseDocumentFrequency)计算特征权重并建立向量空间模型,再利用K-means文本聚类来归纳出四、实证分析多个话题;最后对多个话题的影响力进行计算并分本文实验数据随机选取了2011年12月8日到析,通过效果验证识别出热点话题。2011年12月14日这7天内的微博数据,通过新浪(二)热点判定——话题影响力设计微博API接口共爬取微博内容2103条。根据研究本文基于微博特点和话题本身,提出热度的判定设计的热点话题挖掘流程,对该周内新浪微博热点因素——话题影响力。微博热点话题影响力为该话题话题挖掘进行实证研究。中单条相关微博内容的影响力总和,单条微博内容的(一)数据预处理影响力又分为直接影响力和间接影响力。由于用户发首先对微博内容进行文本预处理,即进行去重、表的微博文直接呈现给关注该用户的受众,因此单条分词、无效信息过滤、降维等操作。实验中使用C#微博的直接影响力与该条微博发布用户的关注人数版本的中科院II℃I.AS中文分词系统对微博文本进(受众数)相关[。本文此处只考虑微博评论数与第一行分词处理,同时标注词性,并过滤微博内容,保留名层的转发数。定义话题影响力相关计算公式如下:词及名词性词语,然后将所有的单字过滤,再去除所Inf(T)一∑Inf(t),i一1,2,⋯,(4)有的英文字符、数字和一系列数学符号等非中文词,1只留下有意义的中文词语。图2为关于“2012年伦敦其中Inf(T)为话题T的影响力;为该类中与话题奥运会期间英国女王出租宫殿套间”话题文本示例。相关的微博条数;Inf(t)为单条相关微博内容t的影响力。一个话题的影响力为话题中所包含的所有相l伦敦奥运英国邮报英国女王伦敦奥运会开幕式I1圣詹姆士宫部分套间人民币价格女王王室历史l关微博内容影响力之和。l遗产地弹位置优势全世界英国王窜形象lInf(t)===Info(t)+Inf,(£)(5)图2词性过滤后的文本图其中Info()为单条相关微博内容t的直接影响力;Inf(£)为单条相关微博内容t的间接影响力。单条(二)话题识别微博的影响力为直接影响力与间接影响力之和。话文本预处理后,针对每条微博内容,利用特征词88 何跃,帅马恋,冯韵:中文微博热点话题挖掘研究权值计算方法TF-IDF计算各个单词权重,以构成的热点词频率较高,则该话题即为热点话题。这种一个向量空间模型用于聚类。实验中,K值在最大原理是基于热点词与话题的附属关系,但却忽略了值范围内通过多次实验结果验证来选取。经过多次当话题较分散的情况下聚类也能进行,同时在聚类试验,最终将该周的微博内容聚为1O类,并对各类结果中,可能有些话题只是局部较热的小话题,整体进行类关键词提取,结果如表1所示。来讲算不上热度很高_1,因此可以设置一个阈值来表1类关键词提取结果表区分话题冷热,话题热度(本文中以话题影响力来衡量)高于阈值则表示聚类出来的话题为“热点话题”,类失别条曩数维数相盖似度关大键堤词删喜信譬息低于阈值则视为“非热点话题”。热点与非热点的概念是相对的,因此也可以根据话题影响力公式计算出每个话题的热度,然后按照热度分数排序,分数越高表示话题影响力越大,热度越高。实验中,挖掘热点话题的数据来源时间段为2011年12月8日至2011年12月14日。由于实验中发现话题的总数较少,故本实验不以预先设定话题影响力阈值来划分“热点”与“非热点”,只将以上1O类中,所提取的关键词具有较强实时性的话题按影响力大小排序,即设定所发现话题均为热有6个,关键词所包含信息较为日常的类有4个。此度不同的热点话题。时若设置类平均相似度阈值为O.01,则恰好包含较强根据话题影响力相关计算公式(4)~(8),计算实时信息的6个类别。将类平均相似度高于阈值且包得到实验中所提取的6个话题在当前时段的影响力含较强实时信息的类定义为一个话题,则从微博内容评分及排名,如表2所示。考虑到微博转发会使微中发现话题数目为6个,分别为类3、4、6、7、8、l0。博的影响扩散,相对于评论其影响力更大,因此公式(三)话题影响力排序大多关于热点发现的算法认为,在聚类后出现(8)中a取值为0.4,取值为0.6。表2话题影响力及排位表从以上分析结果可以看出,在实验识别出的2011目为A+c,而被判定与话题相关的数目为A+B。年12月8日到2011年12月14日的6个话题中,影响召回率和精度是不可能两全其美。当召回率较力从大到小依次是江苏丰县校车事故、南京大屠杀纪高时,精度反而降低;反之精度高时,召回率就会有念日、韩国海警被刺事件、电影《金陵十三钗》即将上所降低。因此,本文用这两个度量值融合而成的一个映、广东陆丰乌坎村群体事件、双子座流星雨爆发。度量值F来衡量这个效果。F值公式如下:(四)效果验证F—R×P×2/(R+P)(11)话题识别与跟踪的效果一般使用准确率和召回实验以“召回率”、“准确率”验证热点话题发现率两个参数来衡量,公式如下:效果,根据公式(9)、(10)、(11)计算出每个话题的^召回率与准确率,如表3所示。召回率:Recall—R+—竿(9)^十L从表3可以看出,6个热点话题召回率从高到低^准确率:Precision=P一—(10)依次为:韩国海警被刺事件,江苏丰县校车事故,南京^T)大屠杀周年纪念,双子座流星雨,陆丰乌坎村群体事其中A表示已提取出的与话题相关内容,B表示已件,电影《金陵十三钗》话题,各类话题召回率均较高。提取出的与话题不相关内容,C表示未提取出的与相反,各类话题准确率均较低,最高为双子座流星雨,话题相关内容。在全部文本数据中,与话题相关的数仅为0.769,最低为广东陆丰群体事件,仅为0.641。聚89 统计与信息论坛类准确率低与微博内容零散、谈论话题范围极其广泛博数据进行热点发掘实证研究。该流程可以使微博有关,即话题聚类时噪声数据太多,导致值较大。站点外部用户利用少量微博数据便能挖掘微博热实验表明微博热点话题发现的“召回率”较高而准确点,以满足其监控舆情或发现商机的需要。本文主率较低,这与微博内容的不规范性、随意性等特点有要的创新工作有以下两点:关。从综合衡量召回率和准确率的F值来看,热点识第一,将识别热点话题的主流技术TDT运用别取得了良好的效果。尽管微博内容存在一定的不于中文微博平台,同时还在流程设计中结合了中文规范和随意性,但从实证分析中可以看到,聚类所选微博的特性。取出的6类热点话题F值均保持在0.75以上。第二,微博平台往往以单一的微博数量指标来表3热点话题识别效果验证表衡量话题热度,而本文则提出了以话题影响力的大话题内容ABC召,F值小来评判话题热度。南京大屠杀纪念日693830.9580.645O.771由于新浪爬虫程序爬取的数据有限,因而本文双子座流星雨401240.9090.7690.833仅限于对能收集到的数据进行研究,实证结果难免《金陵十三钗》13744150.9010.7570.823丰县校车事故1405840.9720.7070.819有一定的局限。另外,微博内容较杂乱,噪声信息较韩国海警事件884101.0000.6820.811广东陆丰事件412340.9720.6410.752多,话题聚类效果也有待提高,因此相关聚类算法的改进也是未来研究的方向。话题影响力验证方法还五、结论需完善,后期可以对热点话题进行动态跟踪,以发现热点话题的整体趋势变化。本文借鉴TDT技术,设计了一套中文微博热点话题挖掘流程,并利用一段时间内的少量新浪微参考文献:[1]Kuo-JuiWu,Meng-ChangChen,YealiSun.AutomaticTopicsDiscoveryFromHyperlinkedDocuments[J].InformationProcessingandManagement,2004,40(2).[2]AuroraPons-Porrata,RafaelBerlanga-Llavori,JoseRuiShulc10per.TopicDiscoveryBasedonTextMiningTechniquesI-J-].InformationProcessingandManagement,2007,43(3).I-3]ChangkiLee,GaryGeunbaeLee,MyunggilJang.DependencyStructureLanguageModelforTopicDetectionandTracking[J1.InformationProcessingandManagement,2007,43(5).[4]孙胜平.中文微博客热点话题检测与跟踪技术研究[D].北京:北京交通大学硕士学位论文,2011.[5]杨冠超.微博热点话题发现策略研究[D.杭州:浙江大学硕士学位论文,2011.[6]赵前东,叶猛.微博热点话题检测系统的设计与实现口].电视技术,2013,37(3).[7]洪宇,张宇,刘挺,李生.话题检测与跟踪的测评及研究综述[J].中文信息学报,2007,21(6).[8]张启宇,朱玲,张雅萍.中文分词算法研究综述[J]_情报探索,2008(11).[9]薛薇,陈欢歌.文本聚类中罚多项混合模型的特征选择及其在互联网舆情分析中的应用[J]-统计与信息论坛,2012,27(1).[1O]GaonkarS,ChoudhuryRRMiero-blog:Map-castingfromMobilePhonestoVirtualSensorMaps[z].Sydney,Australia,2007.[11]程军军,刘云.基于新闻评论的热点话题发现系统研究l-J].网际网路技术学,2008,9(5).ResearchonChineseMicro-BloggingHotTopicMiningHEYue,SHUAIMa-lian,FENGYun(BusinessSchool,SichuanUniversity,Chengdu610064,China)Abstract:Micro-blogginghottopicrepresentsthepublicattitudetotheproblemsofreallife,andtherecognitionofthemiero-blogginghottopicisbeneficialtomonitorofnetworkpublicsentiment.ThepaperbasedonTopicDetectionandTracking(TopicDetectionandTracking,TDT)designstherecognitionpathofChinesemicro-blogginghottopic,whichanalysisextractedmicro-blogginghottopicbyimpactoftopictoidentifythehottopic.Theresultshowsthataccordingtothesizeoftheimpactofhottopicsoftheexperimentalperiod,therankinglistisconfirmedwellbytheevaluationofTDT.Thetopicinfluencebuildingprovidesatheoreticalbasisforrelevantenterprisesorgovernmenttotakeadifferentcontrolstrategyofpublicopinionforthetopicofheatsize.Keywords:micro-blogging,impactoftopic,TDT(责任编辑:杜一哲)90

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭