欢迎来到天天文库
浏览记录
ID:42662793
大小:42.09 KB
页数:8页
时间:2019-09-19
《基于聚类分析的微博用户标签自动生成》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于聚类分析的微博用户标签自动生成(吕海燕,王丽娜,张杰)(海军航空工程学院,山东烟台264001)摘要:本文基于用户发表的微博内容进行标签的自动生成,主要研究的是基于聚类分析的用户标签自动生成。本文首先介绍用到的关键技术:聚类技术和TextTank,提出了Baseline系统,接下来详细说明了基于聚类分析的标签自动生成方法,最后通过实验对该方法进行了分析和评价。实验结果表明,该方法生成的用户标签能够有效地解决同义标签的堆积问题,使得生成的标签能够在更多的维度上体现用户的兴趣。关键词:微博用户标签;TextRank;聚类分析Automaticgeneration ofmic
2、ro-blog usertags basedonclusteringanalysis(LVHai-yan,ZhangJie,WangLi-na,)(NavalAeronauticalandAstronauticalUniversity,Yantai264000,China)Abstract:Themainresearch isthe automaticgenerationofmicro-bloguser tagsbasedon clusteranalysis.Keytechnologiesusedinthispaperareintroducedfirstly;mainlyi
3、ncludeclustertechnologyandTextRank.ABaselinesystemisproposedinordertoshowthevalidityoftheresearchproposedbythispaper.Thenthe automaticgenerationmethodbasedonclusteringanalysisisillustrateddetailedly.Finallyanalyzeandevaluatethemethodbyexperiments.Theexperimentalresultsshowthattheuser tagsg
4、eneratedbythemethodcansolvetheproblemofsynonymytagsstack,andthetagscanreflecttheusers’interestinmore dimensions.Keywords: TagsforMicro-blogUsers; TextRank; ClusterAnalysis引言近年来,微博已经成为了一种流行的网络信息传播平台,越来越多的人拥有自己的微博账户。微博文本短小(一般限制在140个字以内),与手机、即时信息服务软件的连接使得微博发布的门槛很低,用户可以随时随地进行更新。随着我们关注的人数越多,信息量
5、越来越大,使我们将面临“信息过载”的问题。针对这种信息过载的问题,人们开始逐渐关注微博上的个性化。而微博用户标签作为描述用户兴趣爱好、职业领域等特征的载体,在用户组织和搜索,挖掘用户兴趣和实现用户微博个性化等方面有着重要的作用[1]。微博用户标签自动生成便是从可利用的资源中自动生成短文本例如词语、短语来描述用户关心的内容和兴趣点[2-4]。其生成方法从生成标签的不同粒度出发,主要有基于关键词和基于类别两种方法[5-8]。本文主要研究基于关键词的微博用户标签自动生成中基于聚类分析的生成方法。1.关键技术1.1聚类技术聚类是一种将数据对象划分成相似的集合(簇)的过程。常见的聚类
6、技术可以分为:划分方法例如K-Means、层次方法例如层次聚类、基于密度的方法、基于网格的方法等等[9]。本文选择了层次方法中的自底向上的凝聚层次聚类。首先将每一个词语都当成一个独立的簇,需要对N个词语进行聚类,那么初始的时候就有N个簇。然后,根据簇之间的距离,选择最近的两个簇逐一合并,直到N个词语都聚成了一个簇。经过这种方法,可以得到一颗具有层次的聚类树,在此之上观察哪一层的聚类效果最符合用途。层次聚类有一个主要的问题就是在逐一合并簇的过程中如何度量两个簇之间的距离。根据衡量方式的不同,可以将层次聚类细分为单连接算法、全连接算法和均值距离/平均距离算法。本文采用的是单连接
7、算法,也称为最近邻聚类算法。算法使用两个簇中最近对象的距离作为簇间的距离,当这个距离超过一定阈值的时候聚类终止,度量公式如(1-1)所示。其中,对象o1、o2分别属于簇c1、c2。d(c1,c2)=mino1∈C1,O2∈C2d(o1,o2)公式(1-1)1.2Baseline系统本文采用TFIDF为候选关键词排序的策略作为Baseline系统。排序公式如公式1-2所示。tfidft,u=tf(t,u)×log(UUt)公式(1-2)其中,tf(t,u)表示用户u的微博文本中词t出现的频率,U表示微博语料中用户的
此文档下载收益归作者所有