基于文本聚类的微博信息分析的研究

基于文本聚类的微博信息分析的研究

ID:34054224

大小:3.47 MB

页数:74页

时间:2019-03-03

基于文本聚类的微博信息分析的研究_第1页
基于文本聚类的微博信息分析的研究_第2页
基于文本聚类的微博信息分析的研究_第3页
基于文本聚类的微博信息分析的研究_第4页
基于文本聚类的微博信息分析的研究_第5页
资源描述:

《基于文本聚类的微博信息分析的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级UDC学校代码10497学位论文题目基于文本聚类的微博信息分析的研究英文ResearchontheAnalysisofMicroblogInformation题目BasedonTextClustering研究生姓名胡璇姓名杨青职称教授学位硕士指导教师单位名称计算机科学与技术学院邮编430063申请学位级别硕士学科专业名称计算机应用技术论文提交日期2014年4月论文答辩日期学位授予单位武汉理工大学学位授予日期答辩委员会主席评阅人2014年5月万方数据独创性声明本人声明,所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。

2、尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武

3、汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定)研究生(签名):导师(签名):日期万方数据武汉理工大学硕士学位论文摘要微博作为一种新兴的社交媒体与信息交流平台,近几年得到了飞速的发展和广泛的应用,相比之下微博信息的分析与挖掘还处于起步阶段。微博信息具有海量、短小、不规范、重复度大等特征,传统的信息分析方法难以满足微博信息分析的需求。正是在这种背景下,本文引入文本聚类方法,并针对微博信息的特点展开研究和试验,目的是能够将内容相近或相似的微博聚集到一起,识别出微博话题。这

4、样不仅能够实现信息的有效组织,节省用户查看微博的时间,而且对微博舆情的预警也有一定的帮助作用。本文主要完成了以下几个方面的工作。首先分析了微博文本信息的特点,并根据其特点研究了常用的微博信息分析方法,比较了各种方法的优缺点并确定本文基于文本聚类的研究方案。其次,针对微博信息的特点和处理效率等因素,设计了基于文本聚类的微博信息处理流程,包括微博文本预处理、微博文本表示及聚类处理;接着,对文本表示方法和文本聚类算法进行了深入的分析,选择向量空间模型描述微博文本,选择k-means算法实现微博文本聚类,讨论了微博信息处理流程的具体实现,最后,在经

5、过预处理的微博数据基础上展开试验,并深入讨论了特征维数和距离对聚类结果的影响。本文的研究工作表明,采用“最小最大原则”能够较好地克服k-means算法对初始点敏感的问题;在文本相似度的计算上,余弦距离比欧氏距离更加适用于微博文本的聚类,最终能够获得较高的正确率和召回率,因此从实践上论证了k-means文本聚类算法对微博信息分析的可行性和合理性,并为微博信息的深度分析和后续应用系统的开发提供了基础。本文的研究工作对微博舆情监控等方面的应用开发有着重要的参考意义。关键词:微博信息分析,微博话题识别,文本聚类I万方数据武汉理工大学硕士学位论文Ab

6、stractAsanemergingsocialmediaandinformationexchangeplatform,themicrobloghaswitnessedrapiddevelopmentandextensiveapplicationinrecentyears.Bycontrast,theanalysisandminingofmicrobloginformationisstillatthepreliminarystage.Becausethemicrobloginformationismassive,short,informal

7、,andwithhighrepetitionrate,soitishardtosatisfytherequirementofmicrobloginformationanalysisbytraditionalmethods.Itisunderthisbackground,thethesisintroducesthemethodoftextclustering,andperformsresearchandexperimentsonmicrobloginformationconsideringitscharacteristics,whichaim

8、stoaggregatethosemicroblogtextsthathavesimilarcontentanddetectmicroblogtopics.Inthisway,i

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。