欢迎来到天天文库
浏览记录
ID:28065072
大小:152.96 KB
页数:5页
时间:2018-12-07
《基于lda的专业个人微博事件提取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、&于LDA的专业个人微博事件提取高永兵,熊振华,陈超,韩翼(内蒙古科技大学信息工程学院,内蒙古包头014010)Keywords为丫Pl动识别出专业博主的公知兴趣,木文提出了一种基于LDA的专、Ik个人微W事件捉取的算法,该算法利川改进的THDH算法提取特征词以及采川LDA为语料库逑模,以此來挖掘出不同主题和词之间的关系,使得特征词史能反映出微傅主题,进一步W到了各个微傅之间与之对应的主题概率关系,并计算出微傅之间的相似度,E后通过改进的kmeans聚类并与人T数据作出比对。实验结果表明,该方法能够®
2、茗提岛微傅率件提収效果。专业个人微博LDA相似度事件提取中图分类号:TP399文献标志码:Agaovong-binAresearchoftimingeventsclassifiedofpersonalmicro-blogbasedonJSIntegratedSimilarityg,NIEZhi-mi,ZHOUHuan-yu,ZHONGZhen-hua(SchoolofInformationEngineeringInnerMongoliaUniversityofScienceandTechnology,
3、Baotou014010.China)Abstract:Inordertoimprovetheaccuracyofindividualmicro-blogsimilarityandimplementtheeventclassificationefficiently,weproposedJScomprehensivesimilarityalgorithmbasedonimprovedJaccardsimilarityandcosinesimilarity.Thealgorithmusedanimprov
4、edTF-IDFalgorithmtoextractfeaturewordsandusedLDAtopicmodeltoconstructsimilarwordtemplate.Basedonthiswecalculatedsimilarityofindividualmicro-blog.Finally,weutilizedK-Meansalgorithmtoclassifytimingeventsofindividualsmicro-blog.Experimentalresultsshowthatt
5、heproposedJScomprehensivesimilarityalgorithmhashigheraccuracythanthetraditionalsimilarityalgorithms.Tosomeextent,itimprovedaccuracyoftimingeventsclassifiedofpersonalmicro-blog.Keywords:similarity;featurewords;similarwordtemplate;eventclassificationKeywo
6、rds弓I言微溥作为-•种分享和交流的平台,随着互联网技术的商速发展,在最近儿年来得到较快的发展。微博和传统的文本相比较,人们可以更方便,实时地农达白己的看法和感受,冋吋也产生了大量的冗余信息。木文所涉及的是专业个人微博,K主要讨论的诂题是与微搏主从事专业ffl关的,诂题活动蓝木限定在-个专业领域,也含一部分公共a题。获取微》主个人的有效信息,而对如此庞人的数据,如釆通过人工逐条选择和判断,足远远不能完成的。因此,如何从大觉微傅数据中提取出傅主主要关注的祺件己成为重要的研究方向。分析博主的微傅信息,根
7、据所写文字rt容主题聚类,将具有相似诂题的微博聚到-•起。在聚类过程屮,微傅的扣似性决定了聚类的准确性,本文研究的重点就是改普微溥相似度的精确性。课题的挑战:1、随冇科技的发展,移动没备越来越普及,微博数裾蛍越来越大,再加上微博甩很多的噪声,部分词汇变异,使符机器自动处理比较w难。2、描述同一主题卜的事情,冇不m的说法,导致相似度计筇非常复杂。Keywords相关工作相似度的计算作为事件提取的关键和基础,它的准确性直接关系到提取效果。文献[1]分析了基丁•同语共现的方法,微傅之M出现的共冋词越多,它
8、们的相似度也就越大;同样,若出现的共同词越少,则扣似度越低。微W是短文木,单词育限,单纯的利用词®的共现來衡i微博之间的相似度误差太人,效果不理想。文献[2]是利用向S空间模型(VectorSpaceModle,VSM),就是把微溥的内容转化成向觉的模式。微傅的相似度,不能直接川于计算,必须翻译成机器"J■直接处理的数学模沏。在VSM中,对于微博的集合卜則,V2,...,Vn},每个词都可以用权重向最W={W1,W2,來表示。短文本相似度通常是利用余弦相
此文档下载收益归作者所有