基于稀疏特征中文微博短文本聚类方法探究

基于稀疏特征中文微博短文本聚类方法探究

ID:6074960

大小:30.50 KB

页数:8页

时间:2018-01-02

基于稀疏特征中文微博短文本聚类方法探究_第1页
基于稀疏特征中文微博短文本聚类方法探究_第2页
基于稀疏特征中文微博短文本聚类方法探究_第3页
基于稀疏特征中文微博短文本聚类方法探究_第4页
基于稀疏特征中文微博短文本聚类方法探究_第5页
资源描述:

《基于稀疏特征中文微博短文本聚类方法探究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于稀疏特征中文微博短文本聚类方法探究  摘要:微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。关键词:微博;短文本;聚类;LDA;文本表示中图分类号:TP391文献标识码:A文章编号文章编号:16727800(2014)001013302基金项目基金项目:安庆职业技术学院2013年院级自然科学研

2、究项目(2013ZRKX004)作者简介作者简介:熊祖涛(1978-),男,硕士,安庆职业技术学院电子信息系讲师,研究方向为软件技术。0引言8微博是一种通过关注机制分享简短实时信息的广播式社交网络平台。据中国互联网络信息中心(CNNIC)2013年1月发布的《中国互联网络发展状况统计报告》显示,截至2012年12月底,中国网民规模为5.64亿,其中微博用户规模达到3.09亿,占网民总数的54.7%,微博已成为中国互联网第二大舆情源。面对数量庞大的微博舆情数据,依靠传统人工统计分析方法已经力不从心。因此,利用技术手段,通过建立合适的微博文本表示模型,运用聚类分析方法,获取舆情热度和舆

3、情倾向信息,实现微博舆情的实时监测就显得尤为重要。1微博文本表示1.1文本表示方法文本表示是指将用来描述文本特征的信息从文本中提取出来,并按照一定的规则进行形式化处理的结果。目前的文本表示模型主要有向量空间模型(VectorSpace8Model,VSM)、N-gram语言模型、类短语串模型、概念模型、图模型、事件模型等。向量空间模型因其表示方法简单、有效,应用最为广泛。向量空间模型将文档表示为特征空间中由一组特征项(T1,T2,…,Tn)构成的特征向量,特征项Ti通常是与文本分类有关的字、词或短语。每一个特征项Ti表示文本的一个维度,并根据Ti在文档中的重要程度赋予一定的权重Wi

4、。所有文本可以用特征向量(T1,W1,T2,W2,…,Tn,Wn)表示。利用向量空间模型,文本内容被简化为特征项与权重的向量表示,文本的处理被简化为向量运算,极大地降低了文本处理的难度。鉴于向量空间模型的突出优势,为了能对中文微博文本数据进行有效的分析和处理,我们将微博文本用这一模型表示。1.2传统的特征权重计算方法在完成文本表示后,需要通过特征降维方法,如文档频率、信息增益、CHI统计量、互信息或期望交叉熵等,对文本表示所形成的初始高维特征集作降维处理,并根据一定的标准将特征集中的特征词赋以一定的权重。特征权重的计算方法有布尔权重、绝对词频权重、归一化词频权重、TFIDF权重等。

5、其中,TFIDF(TermFrequencyInverseDocumentFrequency)方法是目前研究和应用最为广泛的权值法之一。TF-IDF权重的计算可表示为公式(1):wik=TFik×log(Nnk+0.01)(1)公式(1)中,TFik表示词条Tk在文档di中出现的频数,nk表示含有词条Tk的文档数,N表示全部训练文本中的文档数。通常情况下,由于待处理文本集中文档长度不一样,难以准确比较,为了更好地表示文本特征,还要对文本特征向量作归一化处理。此时,权重计算可表示为公式(2):wik=TFik×log(nnk+0.01)∑mk=1(TFik×log(nnk+0.01)

6、)2(2)1.3微博文本特征权重计算方法8由于微博文本非常短,在使用TF-IDF方法计算特征权重时,同一词语在某一短文本中出现的次数多为1~2次。在这种情况下TF值基本在1~2左右,导致TF-IDF公式的取值受TF影响不大,主要由IDF值决定。而根据IDF取值规定,在整个文本集中出现的特征词频率越高,其IDF值越小,致使其TF-IDF权重越小。这与在短文本中高频出现的特征词往往与主题密切相关相悖。另外,在微博中,同一特征词出现在不同短文本中的概率要远远小于长文本,在使用机器学习的方法对微博短文本进行聚类时,常常会产生严重的数据稀疏问题,对聚类性能产生影响。针对微博文本这一特点,文中

7、采用了基于LDA(LatentDirichletAllocation)的表示方法。LDA是一种具有文本主题表示能力的三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA训练模型对所有待处理的文档进行建模,将其作为K个主题的集合。这些主题通过建模后会与文档中的所有词语存在概率分布关系。文档到主题服从Dirichlet分布,主题到词服从多项式分布,LDA生成过程的概率模型如图1所示。图1LDA生成过程的概率模型8其中,实心圆表示可观察值,空心圆表示隐含变量,矩形表示重复

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。