欢迎来到天天文库
浏览记录
ID:27750474
大小:264.72 KB
页数:7页
时间:2018-12-05
《专业领域私人微博线索词提取的算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、专业领域私人微博线索词提取的算法研究局永兵/周环宇,聂知秘(内蒙古科技大学信息工程学院,内蒙古包头014010)摘要:在分析普通长文本关键字提取以及TF-IDF相似度聚类算法的基础上,结合与分析了专业领域私人微博数据的文本特征,提出了一种适用于短文本的线索词提取算法-ESSC(essayserialsimilarityclusterin),即短文本串行相似度聚类。算法主要分为三部分:第一引进了由微博转帖、评论和赞数组成的热度因素;第二进行了基于耦合、时序和流行度三个因素的相似度聚类,解决了相似度浑浊、漂移和稀疏问题;第三改进了传统的TFIDF函数。实验结果证明该算法
2、具有很高的抽准率。关键词:微博数据;线索词抽取;相似度聚类;中图分类号:TP392文献标识码:A文章编号:ProfessionalprivatemicrobloggingcluewordextractionalgorithmsGAOYong-bing,ZHOUHuan-yu,NIEZhi-mi(SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnology,Baotou014010,China)Abstract:Basedontheanalysisofcommontextkey
3、wordextractionandTF-IDFlong,onthebasisofsimilarityclusteringalgorithm,combinedwiththeanalysisoftheprofessionalprivateweibodatatextcharacteristic,thispaperproposesawordextractionalgorithmissuitableforshorttextclues-ESSC(essay,serialsimilarityclusterin),namelytheessaythisserialsimilarity
4、clustering.Algorithmmainlydividesintothreeparts:thefirstintroducedbyweiborepost,commentandpraiseofheatfactor;Thesecondwascarriedoutbasedonthecoupling,timingandpopularityofthethreefactorsofsimilarityclustering,thesimilarityofturbidity,driftingandsparsesolution;Thethirdimprovedthetraditi
5、onalTFIDFfunction.Theexperimentalresultsshowthatthisalgorithmhashighprecision.Keywords:Weibodata;Subjectheadingsdetection;Similarityclustering;1引言微博足近年来新兴起的,且发展迅速的新闻媒体。用户可以随时随地使用电脑或移动客户端发布状态。K中关注和分享鉍新的新闻事件,是用户使用微博平台的重要hl的。微博数裾是一种实时性较强的短文本,与常规文木相比,具冇文木缺失性、不规则性和多样性等特点。本文以短文本数裾挖掘为研究背景,展开了
6、从短文木预处理到短文本相似性度再到短文木串行聚类算法的研究。实验结果可以作为事件检索、热点话题的发现与分类以及私人微博自动摘要生成的线索词(clueword)o主题词杣取一直是国内外研究的热点,传统方法通常是基于句景空I'⑴模型(Vectorspacemodel)VSM,它的处理对象是大规模数据集,一般以文捫中分词的频率來计算对应的特征权東。本文在发挥向量空间模型易处理特性优势的基础上,结合专、Ik领域私人微博的特点,扩展了文本的表示方法,解决了短文本相似度浑浊、漂移和稀疏M题。目前这方Iftf的研究主要集中于公共微博,而针对私人微博的研究很少。木文的主要研究工作是
7、:1.获取微博中超文本指向的网页标题;2.提出一种适用于实时性强的短文本线索词抽取算法-ESSC(essayserialsimilarityclustcrin),即短文本华行相似度聚类;3.引进/由微博转帖、评论和赞数组成的流行度概念;4.对传统TF-IDF函数进行改进;5.对词性权重进行更详细地分类赋值。2相关工作国外对主题词的自动检测方面的研究起步较早,并且已经形成了完善的实验体系。Turney[1]S计的Extractor系统是利用机器学〉j方法和遗传算法实现主题词的自动抽取;Witten[2]采取朴素W叶斯技术分析其关键词的离散性,进行权重的汁算,最后从
此文档下载收益归作者所有