《pwswe:个人微博主题词提取算法的研究》

《pwswe:个人微博主题词提取算法的研究》

ID:27557031

大小:231.28 KB

页数:7页

时间:2018-12-04

《pwswe:个人微博主题词提取算法的研究》_第1页
《pwswe:个人微博主题词提取算法的研究》_第2页
《pwswe:个人微博主题词提取算法的研究》_第3页
《pwswe:个人微博主题词提取算法的研究》_第4页
《pwswe:个人微博主题词提取算法的研究》_第5页
资源描述:

《《pwswe:个人微博主题词提取算法的研究》》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、PWSWE:个人微博主题词提取算法的研究高永兵周环宇聂知秘胡文江(内象古科技大学信息工程学院内象古包尖014010)摘要个人微博在分析传统短文本主题词提取算法的基础上,综合考虑个人微博的非主流文本特征,提出一种个人微博主题词提取算法(Personalweibosubjectwordextractionalgorithm,PWSWE)o该算法采用增量式的提取模式,首先引进由微博转帖、评论和赞数组成的流行度概念;其次对耦合、时序和流行度进行串行相似度计算;再次针对关键词特征值离散现象,对传统TF-1DF函数进行改进;最后综合以上提取结果并进行相应地处理得到最终的主题词

2、。实验结果证明该算法提取的主题词具有较高的准璃率和覆蓋率。关键词主题词PWSWE关键词中图分类号TP392文献标识码ADOI:PWSWE:PERSONALWEIBOSUBJECTWORDEXTRACTIONALGORITHMRESEARCHGaoYongbingZhouHuanyuNieZhimiHuWenjiang(SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnology,Baotou014010,InnerMongolia,China)AbstractBasedon

3、theanalysisofthetraditionalalgorithminshort-textthematicwordsextraction,thepaperputforwardanewpersonalweibosubjectwordextractionalgorithmthatinvolvesnon-mainstreamtextcharacteristicsinpersonalweiboandrunsinanincrementalextractionpattern,firstlytheconceptofthepopularityisintroducedbyfo

4、rwardsaswellascommentsandpraisesinweibo.Thenweworkouttheserialsimilaritybycalculatingthecoupling,timingandpopularity.AfterthatweimprovethetraditionalTF-IDFfunctionfromthephenomenonofkeywordsEigenvaluediscrete.Finallyweprocessandgetthecluewordsonthefundamentoftheextractionresultsabove.

5、Itshowsthatthisalgorithmhashigheraccuracyandcoverageinsubjectwordextraction.KeywordsPersonalweiboSubjectwordPWSWE1引言微博即微博客(MicmBlog)的简称,是近年來新兴起的,且发展迅速的新M媒体。用广可以通过WEB、移动容户端等途径随时随地进行状态更新和信息分享。新浪是目前国内流行度最广的微博网站,根据2013年7月最新的数据统计显示,新浪微博注册用户已达到3.3亿,形成了微博庞人的数据最。与常规文本相比,微博数据具有不规则性、海量性和实时性等特点。

6、所以如何从人贷的、不规则的个人微IS数据屮精确地提取出用广在某段时叫内所关注或经历的少件,足当前个人微W倍息检测技术盂竹要解决的问题。本文以短文木数裾挖掘为研究竹泉,以个人微溥信息为数裾集,以提取主题词为B的,肢开丫从文木预处理到似性度最,再到特征值计算等一系列研究,为今后个人微博事件检测、自动摘要生成提供依据。主题词提取一ft记数据挖掘领域研究的重点,传统方法是基于向量空间模型(Vectorspacemodel)VSM,主喪以统计词频方式计算关键词的特征值,凡面A大规模的常规文本。花继承以最空间模型部分特征的基础上,综合考虑个人微I#非卞流特征,使文本衣现形式更

7、丰富,解决了传统方法所存在的相似度浑浊、相似度漂移以及特征值离敗问题。主耍研究工作是:1)获取了微傅信息中超文木指向的网页标题;2)提出了rfl微博转帖、评论和赞数构成的流行度概念:3)结合个人微博的数据特征,提出一种个人微博主题词提取算法,即PWSWE算法;4)针对短文本特征值离散现象,对传统TF-IDF函数进行改进;5)分别将PWSWE筇法与传统TF-IDF筇法提取的主题词结果同人工标注进行实验对比和结果分析。2相关工作国外对关键调提取的研究已经十分成熟,K主要的方法冇Tumey11]设汁的S于决策树和遗传算法•构逮的Extractor系统,实现关键词的自动抽

8、取;KEA

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。