基于k-means的私人微博聚类算法改进

基于k-means的私人微博聚类算法改进

ID:28065056

大小:121.11 KB

页数:6页

时间:2018-12-07

基于k-means的私人微博聚类算法改进_第1页
基于k-means的私人微博聚类算法改进_第2页
基于k-means的私人微博聚类算法改进_第3页
基于k-means的私人微博聚类算法改进_第4页
基于k-means的私人微博聚类算法改进_第5页
资源描述:

《基于k-means的私人微博聚类算法改进》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于k-means的私人微博聚类算法改进高永兵,郭文彦,周环宇,聂知秘(内蒙古科技大学信息工程学院,内蒙古包头014010)摘要:针对私人微博内容进行聚类研究,结合私人微博的内容和结构特点提出了基于K-means的改进聚类算法。通过添加引用和评论内容丰富了文本内容,降低了短文本矩阵向星严重稀疏性带来的聚类算法准确性降低的影响;通过甄别"微话题"内容和改进相似度的计算,找到初始化类别并进行初步计算得到合适的类别数目和初始中心点解决了k-means算法中聚类数目K需人工指定和初始中心点选取随机性的问题。实验结果表明改进后的算法不仅可以自适应地得到K值,较普通的k-means算法在聚

2、类的准确率上有所提关键词:K-means算法;私人微博;初始中心点;自适应中图分类号:TP392文献标识码:A文章编号:ImprovementsofpersonalweiboclusteringalgorithmbasedonK-meansGAOYong-bing,GUOWen-yan,ZHOUHuan-yu,NIEZhi-mi(SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnology,Baotou014010,China)Abstract:Aimingatclusteringres

3、earchonpersonalweibo,animprovedK-meansalgorithmisproposedonthecombinationofpersonalweibocontentandstructuralfeatures.Byaddingthereferenceandcommentcontentintotext,theinfluenceoftheserverdatasparsenessinshortdocumentsisreduced.Byscreenedout"microtopic"andimprovedthesimilaritycomputing,theappr

4、opriatecategoriesandthenumberofinitialcentersisfound,sotheproblemsofK-meansthatthenumberofclustersKneedtomanuallyspecifyandtheinitialcentersisrandomaresolved.ExperimentalresultsshowthattheimprovedalgorithmcannotonlygettheadaptivevalueofK,buttheaccuracyisalsoimprovedcomparedwiththegeneralK-me

5、ans.Keywords:K-meansalgorithm;personalweibo;initialcenters;adaptive;0.引言作为web2.0时代新兴起的一类开放式互联网应川,微附是一种非正式的迷你型附客。据CNN1C(屮国互联网信息屮心)发布的数据显示,截止2013年6月底,我国的微博用户已达3.31亿,网民的微博川户比例达到了56.0%,川户每H发布的W-文数多达1亿条。与传统杜会媒体相比,微W-的发展态势强劲,已成为人们生.活中不可获缺的一部分(1)。针对微博的研究是B前的一人热点,微博不完全同于己有的短文本,它具宥简短、实时性及杜会性等特征。I目前W内

6、大罱关于微搏的研究都着眼于公共微博,比如从公共微W屮挖掘热点事件发现、意见领袖识别、网络内界检测、网络舆情检测等等(2)【5】。本文的关注点是私人微博,即以川户为中位组成的微博数据架合。通过改进文本信息处理屮使用到的聚类方法,针对私人微搏A容进行幣理和挖掘。对微博本人來说,W以对F1己的微博历史内界整现归类,使得历史数裾对ft己淸晰可川;对他人而言,经过文本信息处理的微博使川户可以史沾楚快速地了解别人微搏的整体内容,挑选出自己感兴趣的信息;M吋,也为公;Jt微博的研究提供了支持,可以进一步应用于内容特征,用户兴趣分析和新兴话题检测等等。这些功能对于数据景庞大的微傅应川,都处很介

7、实际意义的。聚类处一种无指导的机器学习力法,在数据挖掘领域屮非常活跃,应用非常广泛。它蕋于“物以类衆”的原理,按照相似性把个体归为若干类别,使得同一类别差异尽可能小,不同类别差异尽可能大。其中K-means算法是目前应用最广泛的基于划分的聚类胱。木文的主要工作就是对常用的k-means算法进行改进,使之适应于私人的微博文本。1.私人微博文本特性分析及相关工作1.1私人微博文本特性分析微博足一种半结构化的数据,不同于其他形式的短文本,微博文本本身就隐含了大景的介价值的倍息、例如采川新浪微附开放

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。