欢迎来到天天文库
浏览记录
ID:27619796
大小:237.15 KB
页数:7页
时间:2018-12-05
《《pwswe:个人微博主题词提取算法的研究》——终极版》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、PWSWE:个人微博主题词提取算法的研究高永兵周环宇聂知秘胡文江(内象古科技大学信息工程学院内象古包尖014010)摘要在分析传统短文本主题词提取算法的基础上,综合考虑个人微博的非主流文本特征,提出一种个人微博主题词提取算法(Personalweibosubjectwordextractionalgorithm,PWSWB)。该算法采用增量式的提取模式,首先引进由微博转帖、评论和赞数组成的流行度概念;其次对耦合、时序和流行度进行串行相似度计算;再次针对关键词特征值离散现象,对传统TF-IDF函数进行改进;最后综合以上提取结果并进行相应地处理得到最终的主题
2、词。实验结果证明该算法提取的主题词具有较高的准确率和覆盖率。关键词个人微博主题词PWSWE中图分类号TP392文献标识码ADOI:PWSWE:PERSONALWEIBOSUBJECTWORDEXTRACTIONALGORITHMRESEARCHGaoYongbingZhouHuanyuNieZhimiHuWenjiang(SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnology,Baotou014010,InnerMongolia.China)Abstract
3、Basedontheanalysisofthetraditionalalgorithminshort-textthematicwordsextraction,thepaperputforwardanewpersonalweibosubjectwordextractionalgorithmthatinvolvesnon-mainstreamtextcharacteristicsinpersonalweiboandrunsinanincrementalextractionpattern,firstlytheconceptofthepopularityisin
4、troducedbyforwardsaswellascommentsandpraisesinweibo.Thenweworkouttheserialsimilaritybycalculatingthecoupling,timingandpopularity.After(hatweimprovethetraditionalTF•TDFfunctionfromihephenomenonofkeywordsEigenvaluediscrete.Finallyweprocessandgelthecluewordsonthefundamentoftheextrac
5、tionresultsabove.Itshowsthatthisalgorithmhashigheraccuracyandcoverageinsubjectwordextraction.KeywordsPersonalweiboSubjectwordPWSWE收榀n期:xxxxXX-XX。高永兵,副教授,主研领域:数裾管理,信息检索。周环宇,硕士生。聂知秘,硕士岀。胡文江,教授。0引言微博即微博客(MicroBlog)的简称,是近年來新兴起的,且发展迅速的新闻媒体。川户讨以随时随地通过WEB、移动客户端等途径实现状态更新和信息分享。新浪足11前注册人数最
6、多,岡闪流行度最广的微博网站。与常规文本相比,微博数据具有不规则性、海跫性和实时性等特点。所以如何从大罱的、不规则的个人微博数裾屮稍确地提取出用户在某段吋间内所关注或经历的事件,是当前个人微傅信息检测技术冇要解决的M题。本文以短文本数据挖掘为研究竹景,以个人微博信息为数据集,以提取主题词为目的,展开了从文本预处理到相似性度觉,再到特征位计算等一系列研究,为今后个人微博事件检测、自动摘•要生成提供依据。主题词提取一直是数据挖掘领域研究的重点,传统方法是基于1^55:空间校型(Vectorspacemodel)VSM,主耍以统计列频方式计兑关键词的特征值,且
7、面向大规校的常规文本。在继承何虽空间模型部分特征的棊础上,综合考虑个人微IS非卞流特征,使文本农现形式更丰富,解决了传统方法所存在的相似度浑浊、相似度漂移以及特征值离散问题。本文的主要研究工作足:1)获取了微博信息中超文本指向的M页标题;2)提出了由微博转帖、评论和赞数构成的流行度概念;3)结合个人微陴的数据特征,提出-•种个人微博主题词提収算法,即PWSWE算法;4)针对短文本中特征位离散现象,对传统TF-IDF闸数进行改进;5)分别将PWSWE算法与传统TF-IDF算法提取的主题词结果同人T标注进行实验对比和结果分析。2相关工作S前关于短文本衆类和特
8、征值计算的研究还处于起步阶段,杨篇、段立娟[
9、]提出基丁•字符串相似性的短文木聚
此文档下载收益归作者所有