欢迎来到天天文库
浏览记录
ID:3906805
大小:618.65 KB
页数:6页
时间:2017-11-25
《基于隐主题分析的中文微博话题发现_史剑虹_陈兴蜀_王文贤》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、网络出版时间:2013-11-0511:26网络出版地址:http://www.cnki.net/kcms/detail/51.1196.TP.20131105.1126.057.html优先出版计算机应用研究第31卷*基于隐主题分析的中文微博话题发现†史剑虹,陈兴蜀,王文贤(四川大学计算机学院网络与可信计算研究所,成都610065)摘要:针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的
2、主题信息,并在此基础上进行文本聚类,最后使用频繁项集挖掘技术获取话题关键词集合。该算法能够较好地实现对中文微博数据的降维与话题发现。真实的微博数据集实验结果验证了该方法的有效性。关键词:中文微博;话题发现;隐主题模型;文本聚类;频繁项集挖掘中图分类号:TP391文献标志码:ADiscoveringtopicfromchinesemicroblogbasedonhiddentopicsanalysis†SHIJian-hong,ChenXing-shu,WANGWen-xian(Network&TrustedC
3、omputingInst.,SchoolofComputerScience,SichuanUniversity,Chengdu610065,China)Abstract:ForhighdimensionalandsparseChinesemicroblogdata,thispaperproposedamulti-stepmethodfordiscoveringtopic.Firstly,combinedwiththespreadcharacteristicsofmicroblog,itgotthemicrob
4、logcontentwhichhadahighnewsvalue.Then,usedthehiddentopicsanalysistechniquetomodelthetextdataandgottheresultofthetextclusteringbyusingthehiddentopicinformation.Finally,theKeyWordswhichwerebestrepresentedthetopiccontentwouldbeobtainedfromtheclusteredresultsth
5、roughfrequentitemsetsmining.TheexperimentalresultsverifythevalidityofthemethodonChinesemicroblogdataset’sdimensionalityreductionandtopicidentification.KeyWords:Chinesemicroblog;topicdiscovering;hiddentopicanalysis;textclustering;frequentitemsetsmining0引言上下文
6、信息,将短文本扩充为较长的文本,减弱特征词词频过低对聚类结果的影响。上述方法操作简单,但却非常耗时,不随着互联网技术的迅猛发展,微博(microblog)近年来获适用于大规模数据的操作。文献[4]则利用上下文相关度模型获得了爆炸式的发展,吸引着越来越多的网民参与。微博是一种得文本特征词,进而对以特征词构成的向量空间模型进行增量基于Web2.0技术实现的社会媒体(socialmedia),其允许用户式聚类获得新闻话题。该方法简化了数学处理,但却忽视了词通过WEB、WAP以及各种客户端设备及时更新简短文本并公元的
7、语义特征,实际地话题的识别准确率较低。文献[5]利用微开发布,是种基于用户关系的信息分享、传播及获取平台。相博中词的共现度构成主题词共现图,实现对新闻话题的识别,较于传统的网络文本数据,微博具有如下特点:1)文本长度短,但其在处理大规模数据时,空间复杂度太高。文献[6]通过隐主内容通常被限制在140个字符以内,数据稀疏性突出;2)内容题模型发现词元的语义特征,使用混合聚类的方法实现了对语法严谨度低,书写随意,且常伴有新的网络用语;3)信息更Twitter新闻话题的发现;而文献[7]则在LDA(LatentDi
8、richlet新速度快,数据规模大、维度高。微博改变了人们获取信息的Allocation)模型的基础上结合Twitter的特征,通过利用用户自方式,其不仅仅是一种单纯的社交工具,同时也是社会舆论传定义的背景信息,提出了Twitter-LDA模型,该模型有效地利播的重要媒介。因此,如何从多样化的微博数据中快速准确地用了已知信息来提高新闻话题的识别率。但是上述的两种模型检测出新闻话题,了解大众关心的问题
此文档下载收益归作者所有