基于隐主题分析的中文微博话题发现_史剑虹_陈兴蜀_王文贤

基于隐主题分析的中文微博话题发现_史剑虹_陈兴蜀_王文贤

ID:3906805

大小:618.65 KB

页数:6页

时间:2017-11-25

基于隐主题分析的中文微博话题发现_史剑虹_陈兴蜀_王文贤_第1页
基于隐主题分析的中文微博话题发现_史剑虹_陈兴蜀_王文贤_第2页
基于隐主题分析的中文微博话题发现_史剑虹_陈兴蜀_王文贤_第3页
基于隐主题分析的中文微博话题发现_史剑虹_陈兴蜀_王文贤_第4页
基于隐主题分析的中文微博话题发现_史剑虹_陈兴蜀_王文贤_第5页
资源描述:

《基于隐主题分析的中文微博话题发现_史剑虹_陈兴蜀_王文贤》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、网络出版时间:2013-11-0511:26网络出版地址:http://www.cnki.net/kcms/detail/51.1196.TP.20131105.1126.057.html优先出版计算机应用研究第31卷*基于隐主题分析的中文微博话题发现†史剑虹,陈兴蜀,王文贤(四川大学计算机学院网络与可信计算研究所,成都610065)摘要:针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的

2、主题信息,并在此基础上进行文本聚类,最后使用频繁项集挖掘技术获取话题关键词集合。该算法能够较好地实现对中文微博数据的降维与话题发现。真实的微博数据集实验结果验证了该方法的有效性。关键词:中文微博;话题发现;隐主题模型;文本聚类;频繁项集挖掘中图分类号:TP391文献标志码:ADiscoveringtopicfromchinesemicroblogbasedonhiddentopicsanalysis†SHIJian-hong,ChenXing-shu,WANGWen-xian(Network&TrustedC

3、omputingInst.,SchoolofComputerScience,SichuanUniversity,Chengdu610065,China)Abstract:ForhighdimensionalandsparseChinesemicroblogdata,thispaperproposedamulti-stepmethodfordiscoveringtopic.Firstly,combinedwiththespreadcharacteristicsofmicroblog,itgotthemicrob

4、logcontentwhichhadahighnewsvalue.Then,usedthehiddentopicsanalysistechniquetomodelthetextdataandgottheresultofthetextclusteringbyusingthehiddentopicinformation.Finally,theKeyWordswhichwerebestrepresentedthetopiccontentwouldbeobtainedfromtheclusteredresultsth

5、roughfrequentitemsetsmining.TheexperimentalresultsverifythevalidityofthemethodonChinesemicroblogdataset’sdimensionalityreductionandtopicidentification.KeyWords:Chinesemicroblog;topicdiscovering;hiddentopicanalysis;textclustering;frequentitemsetsmining0引言上下文

6、信息,将短文本扩充为较长的文本,减弱特征词词频过低对聚类结果的影响。上述方法操作简单,但却非常耗时,不随着互联网技术的迅猛发展,微博(microblog)近年来获适用于大规模数据的操作。文献[4]则利用上下文相关度模型获得了爆炸式的发展,吸引着越来越多的网民参与。微博是一种得文本特征词,进而对以特征词构成的向量空间模型进行增量基于Web2.0技术实现的社会媒体(socialmedia),其允许用户式聚类获得新闻话题。该方法简化了数学处理,但却忽视了词通过WEB、WAP以及各种客户端设备及时更新简短文本并公元的

7、语义特征,实际地话题的识别准确率较低。文献[5]利用微开发布,是种基于用户关系的信息分享、传播及获取平台。相博中词的共现度构成主题词共现图,实现对新闻话题的识别,较于传统的网络文本数据,微博具有如下特点:1)文本长度短,但其在处理大规模数据时,空间复杂度太高。文献[6]通过隐主内容通常被限制在140个字符以内,数据稀疏性突出;2)内容题模型发现词元的语义特征,使用混合聚类的方法实现了对语法严谨度低,书写随意,且常伴有新的网络用语;3)信息更Twitter新闻话题的发现;而文献[7]则在LDA(LatentDi

8、richlet新速度快,数据规模大、维度高。微博改变了人们获取信息的Allocation)模型的基础上结合Twitter的特征,通过利用用户自方式,其不仅仅是一种单纯的社交工具,同时也是社会舆论传定义的背景信息,提出了Twitter-LDA模型,该模型有效地利播的重要媒介。因此,如何从多样化的微博数据中快速准确地用了已知信息来提高新闻话题的识别率。但是上述的两种模型检测出新闻话题,了解大众关心的问题

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。