k-means算法的改进及其在微博话题发现中的应用

k-means算法的改进及其在微博话题发现中的应用

ID:23528290

大小:2.11 MB

页数:62页

时间:2018-11-08

k-means算法的改进及其在微博话题发现中的应用_第1页
k-means算法的改进及其在微博话题发现中的应用_第2页
k-means算法的改进及其在微博话题发现中的应用_第3页
k-means算法的改进及其在微博话题发现中的应用_第4页
k-means算法的改进及其在微博话题发现中的应用_第5页
资源描述:

《k-means算法的改进及其在微博话题发现中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、311分类号:TP密级:公开单位代码10042:国际关系学院硕士研究生学位论文论文题目-Mean(中文):Ks算法的改进及其在微博话题发现中的应用论文题目(外文)-t:ImprovementofKMeansAlgorihmandItsApplicationinWeiboTopicDiscovery学号:2015607015作者:柳亚男专业名称:通信与信息系统专业方向:信息安全学术导师:康艳梅副教授单位:国际关系学院入学时间:2015年09

2、月07日论文完成日期:2018年04月01日学位授予单位?.国际关系学院原创性声明本人郑重声明如下:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果^除文中己经注明引用和致谢的内容外,本论文不含任何其他个人或集体己经发表或撰写过的作品或成果。对本文的研宂做出重要贡献的个人和集体,均己在文中以明确方式标明=本声明的法律结果完全由本人承担。论文作者签名:卩^了1£)曰期:>〇d年上月曰学位论文使用授权声明本人同意在校攻读学位期间所撰写学位论

3、文的知识产权属于国际关系学院。本人保证毕业离校后,发表本论文或使用本论文成果时署名单位仍为国际关系学院。学校有权保留本学位论文并向国家主管部门或其他指定机构交提论文的电子版和纸质版,允许本论文被查阅和借阅《中,有权将本论文的全部或部分内容编入国优秀博硕士学位论文全文数据库》和《中国知识资源总库》进行检索,可以采用影印、缩影或其它复制手段保存学位论文,可以公开本学位论文的全部或部分内容。“”本学位论文属于(请在以上相应方框内打V)公开y保密□,按照《国际关系学院关于涉密硕士

4、学位论文的管理办法》解密后适用本授权书,论文作者签名:日期:年上月曰导师对学位论文的终审意见论文作者己结合答辩委员会的意见修改了论文,同意提交此论文并存档。导师签名:U-曰期':年曰月」&K-Means算法的改进及其在微博话题发现中的应用ImprovementofK-MeansAlgorithmandItsApplicationinWeiboTopicDiscovery研究生姓名:柳亚男指导教师姓名:康艳梅国际关系学院中国北京,100091MasterDegreeCan

5、didate:LiuYa’nanSupervisor:KangYanmeiUniversityofInternationalRelations12Poshangcun,HaidianDistrictBeijing,P.R.China,100091摘要随着互联网的不断发展,从数据中分析挖掘出具有价值的内容,是如今科学家们研究的重要方向。在我国,微博作为一种新兴的社交媒体与信息交流平台,对其数据进行挖掘分析具有很大的现实意义。K-Means算法作为聚类技术应用最普遍的算法之一,其所衍生出的多种变形算法,是文

6、本信息挖掘技术中的核心技术。本文通过介绍分析传统K-Means算法所具有的聚类速度快、易于实现,而且适用于文本、图像特征等多种数据的特点,发现由于聚类初始中心点选择的随机性,传统K-Means算法以及其变种的聚类结果会产生较大的波动,而且微博的数据具有海量、短小、不规范、重复度大等特征,传统的信息分析方法难以满足微博信息分析的需求。在此基础上,本文所做工作如下:首先,针对传统K-Means算法的缺陷,设计了基于密度概念的改进K-Means算法,通过计算每个数据点的密度值,对数据进行初步的排序、筛选之后,

7、再根据最小最大原则,合理的选择出k个初始聚类中心,消除了原始算法的随机性;然后,针对微博信息的特点和处理效率等因素,设计了基于文本聚类的微博信息处理流程,包括文本去噪、分词、停用词过滤、文本表示、特征提取和权重计算,以将微博文本处理为可以输入算法的格式;最后,为验证本文所提改进算法的性能,通过实验,获取微博数据并处理后,将改进后的K-Means算法与传统K-Mean算法、CAMDP算法应用于话题聚类中,并用准确率、召回率和F1值对算法进行评价。实验结果发现,改进后的K-Means算法有效的提高了聚类结果

8、的准确度,对微博话题的聚类效果良好,并为微博信息的深度分析和后续应用系统的开发提供了基础。本文的研究工作对微博舆情监控等方面的应用开发有着重要的参考意义。关键词:K-Means算法;密度中心;最小最大原则;微博文本聚类IAbstractWiththecontinuousdevelopmentoftheInternet,ithasbecomeanimportantresearchdirectionforscientiststodaytoext

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。