专业领域私人微博线索词提取的算法研究

ID：27750474

大小：264.72 KB

页数：7页

时间：2018-12-05

资源描述：

《专业领域私人微博线索词提取的算法研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、专业领域私人微博线索词提取的算法研究局永兵/周环宇，聂知秘(内蒙古科技大学信息工程学院，内蒙古包头014010)摘要：在分析普通长文本关键字提取以及TF-IDF相似度聚类算法的基础上，结合与分析了专业领域私人微博数据的文本特征，提出了一种适用于短文本的线索词提取算法-ESSC(essayserialsimilarityclusterin),即短文本串行相似度聚类。算法主要分为三部分：第一引进了由微博转帖、评论和赞数组成的热度因素；第二进行了基于耦合、时序和流行度三个因素的相似度聚类，解决了相似度浑浊、漂移和稀疏问题；第三改进了传统的TFIDF函数。实验结果证明该算法

2、具有很高的抽准率。关键词：微博数据；线索词抽取；相似度聚类；中图分类号：TP392文献标识码：A文章编号：ProfessionalprivatemicrobloggingcluewordextractionalgorithmsGAOYong-bing,ZHOUHuan-yu,NIEZhi-mi(SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnology,Baotou014010,China)Abstract:Basedontheanalysisofcommontextkey

3、wordextractionandTF-IDFlong,onthebasisofsimilarityclusteringalgorithm,combinedwiththeanalysisoftheprofessionalprivateweibodatatextcharacteristic，thispaperproposesawordextractionalgorithmissuitableforshorttextclues-ESSC(essay,serialsimilarityclusterin)，namelytheessaythisserialsimilarity

4、clustering.Algorithmmainlydividesintothreeparts:thefirstintroducedbyweiborepost，commentandpraiseofheatfactor;Thesecondwascarriedoutbasedonthecoupling，timingandpopularityofthethreefactorsofsimilarityclustering，thesimilarityofturbidity,driftingandsparsesolution;Thethirdimprovedthetraditi

5、onalTFIDFfunction.Theexperimentalresultsshowthatthisalgorithmhashighprecision.Keywords:Weibodata;Subjectheadingsdetection;Similarityclustering;1引言微博足近年来新兴起的，且发展迅速的新闻媒体。用户可以随时随地使用电脑或移动客户端发布状态。K中关注和分享鉍新的新闻事件，是用户使用微博平台的重要hl的。微博数裾是一种实时性较强的短文本，与常规文木相比，具冇文木缺失性、不规则性和多样性等特点。本文以短文本数裾挖掘为研究背景，展开了

6、从短文木预处理到短文本相似性度再到短文木串行聚类算法的研究。实验结果可以作为事件检索、热点话题的发现与分类以及私人微博自动摘要生成的线索词(clueword)o主题词杣取一直是国内外研究的热点，传统方法通常是基于句景空I'⑴模型(Vectorspacemodel)VSM,它的处理对象是大规模数据集，一般以文捫中分词的频率來计算对应的特征权東。本文在发挥向量空间模型易处理特性优势的基础上，结合专、Ik领域私人微博的特点，扩展了文本的表示方法，解决了短文本相似度浑浊、漂移和稀疏M题。目前这方Iftf的研究主要集中于公共微博，而针对私人微博的研究很少。木文的主要研究工作是

7、：1.获取微博中超文本指向的网页标题；2.提出一种适用于实时性强的短文本线索词抽取算法-ESSC(essayserialsimilarityclustcrin),即短文本华行相似度聚类；3.引进/由微博转帖、评论和赞数组成的流行度概念；4.对传统TF-IDF函数进行改进；5.对词性权重进行更详细地分类赋值。2相关工作国外对主题词的自动检测方面的研究起步较早，并且已经形成了完善的实验体系。Turney[1]S计的Extractor系统是利用机器学〉j方法和遗传算法实现主题词的自动抽取；Witten[2]采取朴素W叶斯技术分析其关键词的离散性，进行权重的汁算，最后从

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 7



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

专业领域私人微博线索词提取的算法研究

专业领域私人微博线索词提取的算法研究

相关文章

相关标签