基于私人微博的主题词检测

基于私人微博的主题词检测

ID:27829912

大小:210.12 KB

页数:5页

时间:2018-12-06

基于私人微博的主题词检测_第1页
基于私人微博的主题词检测_第2页
基于私人微博的主题词检测_第3页
基于私人微博的主题词检测_第4页
基于私人微博的主题词检测_第5页
资源描述:

《基于私人微博的主题词检测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于私人微博的主题词检测咼永兵J周环宇/聂知秘(内蒙古科技大学信息工程学院,内蒙古包头014010)摘要:在分析传统的长文本的主题词检测算法的基础上,结合微博数据特有的文本特征,提岀一种"聚类-权重-提取"(clusteringweightingextractionCWE)模式的主题词检测方法。主要综合考虑了微博数据转帖、评论、赞数、内嵌超链接(URL),实验结果证明该方法提取的主题词具有很高的准确性。最后对私人微博的主题词检测的发展方向和用途进行总结和展望。关键词:微博数据;聚类;主题词检测;中图分类号:TP392文献标识码:A文章编号:

2、SubjectheadingsdetectionbasedonpersonalweiboGAOYong-bing,ZHOUHuan-yu,NIEZhi-mi(SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnology,Baotou014010,China)Abstract:Theanalysisofthetraditionalkeywordsdetectionalgorithmonthebasisofthelongtext,onthebasisof

3、combinedwiththefeatureofweibodatacharacteristicofthetext,putforwarda"clusteringweights・extraction*1(clusteringweightingextractionCWE)modelofkeywordsdetectionmethod.Mainlyconsidersthedataweiborepost,reviews,praise,inlinehyperlinks(URL),theexperimentalresultsprovethemodeltoe

4、xtractthesubjecthastheveryhighaccuracy.Finallybytestingthesubjectheadingsofprivatemicroblogging,summarizeandprospectthedevelopmentdirectionandpurpose・Keywords:Weibodata;Clustering;Subjectheadingsdetection1引言微博是近年来新兴起的,且发展迅速的新闻媒体。用户可以在任何吋间、任何地点使用电脑或移动客户端发布状态。其中关注和分寧最新的新闻事件,

5、是用户使用微博平台的重要日的。微悶数据⑶具有以下五个特性:(1)海量数据。以新浪微博为例,微博平台平均每天收录来口用户发布的将近2亿条帖子,Ifu发帖的频率平均高达1000条/s,形成了微障海最数据的特征。(2)短文本性。根据微博平台的规定,每条帖了的长度不超过140个字符,故对微[専数据的处理都是针对短文本的。(3)文本的多样性。由于用户关注的新鲜事件有多种表现形式,除了文字还有图片、视频以及超链接,使其微博文本呈现出多样性。(4)即时性。用户通过移动客户端、IM软件和开放的API等多种途径去随时随地记录白C的所见所闻,体现了微博数据的即

6、时性。(5)庞大的社交网络。用户间通过“关注与被关注”双向模式形成了庞人的社交网络,同时转发、评论、互赞等功能的引入增加了信息密集度。主题词的检测一直是国内外研究的热点,传统主题检测的数据集都是针对普通的长文本,采用的方法通常是基于向虽空间模型和TFIDFo一方面由于微博数据自身的短文木性和多样性,采用传统的检测方法无法达到预期的效果;另一方面微博主题词的检测要结合转发数、评论数、赞数以及内嵌的超链接等因索,而传统的主题词检测方法是不能将其以上因素考虑进去的。所以分析传统主题词检测方法的缺陷以及微博数据木身的特点,提出一种CWE(clust

7、cringweightingextraction)的主题词检测方法。本文的主要创新点冇以下三点:1)改变了传统的先计算候选关键词的多特征权重⑵,再根据权重值进行聚类⑴的模式。本文采取的模式是先聚类,冃的是先锁定用户关注度高但综合权重低的主题词,即聚类关键词;其次计算所冇候选关键词的综合权重,提取阀值范围内的分词,即特征关键词;最后合并两次提取结果并去除重复数据得到主题词。2)结合了微博数据短文本特征,将传统的TF-IDF⑷公式进行改进,在TF的计算上综合考虑了一个词在特定的某个短文本中出现的次数以及整个文本中出现的次数,使得每个关键词的TF

8、-IDF值具备相对稳定性。3)传统的词性权匝赋值只是单纯地划分为名词、动词等,没冇对具体的词性进行具体的分类。山于名词在表达文木信息的贡献度比较大,而不同名词贡献度也不同,所以本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。