微博特定话题检测与跟踪研究及实现

微博特定话题检测与跟踪研究及实现

ID:35078120

大小:3.36 MB

页数:58页

时间:2019-03-17

微博特定话题检测与跟踪研究及实现_第1页
微博特定话题检测与跟踪研究及实现_第2页
微博特定话题检测与跟踪研究及实现_第3页
微博特定话题检测与跟踪研究及实现_第4页
微博特定话题检测与跟踪研究及实现_第5页
资源描述:

《微博特定话题检测与跟踪研究及实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、单位代码:10293密级:,硕女#隹俗A飞;t編:临,擊ii、.^'‘一';‘只v.少’’帮■<L^-.论文题目微博特定话题检测与跟踪研究及实现一''-.':.蛛.J.’'wfVf/‘乂尸'方一11304119'02学号姓名束理导师成卫青学科专业计算机应用巧术、研究方向数据挖掘'市申请学位类别王学硕±..过-.一.六年二月论文提交日期;;零V/I、讚.鷹嫌f;李艮南京邮电大

2、学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研巧成果。尽我所知,除了文中特别加标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。…同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意与我。一切相关的法律责任本人学位论文及渉及相关资料若有不实,愿意承担。‘捉、遂抑研究生签名:幸曰期r南京邮电大学学位论文使用授权声明本人授权南京邮电大学可保留并向国家有关部n或

3、机构送交论文的复印件和电子文档;采允许论文被查阅和借阅;可将学位论文的全部或部分内容编入有关数据库进行检索;可臥用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文一的内容相致。论文的公布(包括刊登)授权南京邮电大学研巧生院办理。涉密学位论文在解密后适用本授权书。研究生签名:末漆导师签名;日期:仁、料口ResearchandImplementationonTopicDetectionandTrackingofMicroblogThesisSubmittedtoNanjingUni

4、versityofPostsandTelecommunicationsfortheDegreeofMasterofDegreeByShuJueSupervisor:Prof.ChengWeiqingFebruary2016摘要随着越来越多的用户愿意上网发微博,表达对公共事件的关注和看法、表达个人情感或情绪、报道新闻事件、发表观点等,微博已经成为非常有价值的数据源。如何有效地获取和展现微博数据中的有效信息,提高信息获取的效率,长期以来一直是一个研究热点。本文分析了微博文本的结构特点,构建了一个微博数据预处理话题检测与跟踪系统。系统通

5、过新浪微博平台获取数据并进行分词,基于分词结果选取特征词构造向量空间模型(VSM);在计算特征权重时基于微博的hashtag信息来提升话题特征词的权重;使用微博转发关系提高微博聚类的准确率;并利用微博的转发数、评论数以及发微博用户信息的相关信息来提取关键词;考虑微博本身的结构特征,针对微博的转发关系,构造转发关系表对微博话题进行自适应地跟踪,进而获取微博话题的发展方向。本文主要工作包括:(1)针对微博文本具有hashtag的特点,并且hashtag通常是对整个微博内容的综合概括,提出了基于hashtag的权重计算方法,该方法能够有

6、效地提高微博聚类的效果。(2)基于转发的微博与被转发的微博之间存在主题内容上的相似性,提出了基于转发关系簇的微博聚类算法,该算法首先基于微博的转发关系构造转发关系矩阵,基于转发关系矩阵构造转发关系簇,然后在转发关系簇的基础上进行聚类分析。(3)基于聚类结果,利用微博的转发、评论数以及微博发布者的信息来提取聚类中的主题词。(4)针对微博的转发关系,构造转发关系表对微博话题进行自适应地跟踪,获取微博事件的发展方向。关键词:微博数据,话题检测,话题跟踪,特征权重,微博转发关系IAbstractWiththedevelopmentofth

7、eInternet,moreandmoreusersarewillingtosendmicroblogstoexpresstheirconcernsandviewstopubliceventsandtheirownfeelingsoremotions,toreportnewsevents,togivetheiropinions,andetc.Microbloghasbecomeavaluablesourceofdata.Howtoeffectivelyacquireinformationfrommicr-bloggdataandi

8、mprovetheefficiencyofaccesstoinformation,hasbeenahottopicforalongtime.Thispaperanalyzedthestructuralcharacteristicsofmicrobl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。