基于k-means的微博短文本聚类算法研究

基于k-means的微博短文本聚类算法研究

ID:35105824

大小:7.52 MB

页数:62页

时间:2019-03-18

基于k-means的微博短文本聚类算法研究_第1页
基于k-means的微博短文本聚类算法研究_第2页
基于k-means的微博短文本聚类算法研究_第3页
基于k-means的微博短文本聚类算法研究_第4页
基于k-means的微博短文本聚类算法研究_第5页
资源描述:

《基于k-means的微博短文本聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10589学号1210002:1308002I:密级:分类号J緣洁乂書硕±学位论文题目-means:暮于K的微博短文本聚类算法研究作者;林红静指导教师:黄梦醒教授专业:计算机科学与技术时间二0—六年五月:—ResearchofWe化0TextClust:eringAlorithmbasedongK-meansAThesisSubmittedinPartialFulfillmentoftheReuirementqFo

2、"heMasterDegreeinInformationScience&TechnologyBy-LinHoningjgSuervMen-xpisor:HuanginggMaor:ComuterScience&TechnolojpgySubmittedtime:Ma2016y,海南大学学位论文原创声明和使用授权说明原创性声明本人郑重声明,是本人在导师的指导下,独立进行研究工:所呈交的学位论文作所取得的成果。除文中己经注巧引用的内容外,本论文不含任何其他个人或集体已经发表

3、或撰写过的作品或成果。对本文的研巧做出重要贡献的个人和集体,均己在文中明确方式标明。本声明的法律结果由本人承担。论文作者签名:日期:年J月本T日学位论文巧权使用授权说明本人完全了解海南大学关于收集、、保存使用学位论文的规定,即;学校有枚保留并向国家有关部口或机构送交论文的复印件和电子脱允许论文被査阅和借阅。学校可ill^为存在巧际合作关系兄弟巧校用户提供文献传递服务和交换巧务?本人授权i海南大学可!^将本学位论文的全部或部分内容编入有关数据库迸行检索,可!^l采用影巧。、缩印或扫描等复制手段保存和汇编本学位论文

4、,保密论文在解密后遵守此规定。'r4:论文作者签名:导师签名日期:年r月聲日日期:年月日>(/""本人已经认真阅读CALIS高校学位论文全文数据库发布韋程,同意将本人的学""""位论文提交CAUS离校学位论文全文数据库中全文发布,并可按章程中规定□一年享受相关权益。同寅论义提交后滞后:□半年::□二年发布。*一论文作者签名:祇名:;导师签日期:別化年i月永日日期:年月日摘要随着互联网科技的高速发展,各种社交媒体应运而生,如贴化、QQ、微信、微。博等,并迅速誠入人们的社会生活其中,微博

5、因其独特的传播机制,发展最为快速,其用户规模已呈现出爆炸式増长的趋势。大量的数据是微博从规模到用户全面发展的必然结果。这些数据由于与用户曰常行为、偏好、习惯直接关联,从而蕴含了大量的、潜在的、有价值的信息。面对这些。大规模的用户数据,如何利用其得到能够直接变现的信息成了迫切需要解决的问题而微博数据的获取是探索虚拟社会的人群社交结构网络、信息传播的内在规律、了解用户的行为偏好的前提条件与支撑。因为微博用户规模大、数据流量大,如何从。信息爆炸的微博网站中高效的获取微博数据,成为研巧微博信息的首要问题综上所述,本文通

6、过对微博信息抓取技术的分析与研巧,提出了基于微博信息的主题网络爬虫,并高效地获取了微博数据:然后将微博数据巧W空间向量的形式进行、、表示,在此基础上结合K均值算法进行聚类分析,从而得到用户的习惯偏好行为、社交等多种数据。本文的主要贡献如下所示:1关键词库的构建:提出了基于微博信息的关键词库爬虫策略,并设计了实验)系统KeysL化,该策略包括W下五大阶段为:样本选取策略、抓取词库样本、样本数据预处理、特征词提取W及构建关键词库。:巧主题网络爬虫的改善提出了基于微博信息的爬虫策略,利用关键词库在传:统的主题网络爬虫

7、的基础上进行完善,实验结果显示该策略有效的提高了获取信息的准确率和覆盖率。-mens3K均值聚类算法(Ka)的改进:本文使用增量聚类技术修改了K均值)算法,解决了传统的K均值算法对聚类初始化状态空间值敏感的难题。-mns算法关键词:VSMK微博;关键词库;主题爬虫;模型;eaABSTRACT-theiseeddeveomenofInterne:echnoloalkinsofsociamedaasesWithhghltttgyldliripp,atthehistoricmomentsu

8、chastheostbarWeChatWe化0etcanduicklinto,.,pQQ,,,,qy'eolessociallife.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。