中文微博热点话题检测技术研究

中文微博热点话题检测技术研究

ID:33482098

大小:2.12 MB

页数:65页

时间:2019-02-26

中文微博热点话题检测技术研究_第1页
中文微博热点话题检测技术研究_第2页
中文微博热点话题检测技术研究_第3页
中文微博热点话题检测技术研究_第4页
中文微博热点话题检测技术研究_第5页
资源描述:

《中文微博热点话题检测技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:密级:论文编号:学号:50110812303重庆理工大学硕士学位论文中文微博热点话题检测技术研究研究生:李阳指导教师:杨武教授学科专业:计算机应用技术研究方向:信息检索培养单位:计算机科学与工程学院论文完成时间:2014年3月25日论文答辩日期:2014年5月30日万方数据万方数据CategoryNumber:LevelofSecrecy:SerialNumber:StudentNumber:Master'sDissertationofChongqingUniversityofTechnologyRe

2、searchonChineseMicro-blogHotTopicsDetectionPostgraduate:LiYangSupervisor:Prof.YangWuSpecialty:ComputerApplicationTechnologyResearchDirection:InformationRetrievalTrainingUnit:CollegeofComputerScienceandEngineeringThesisDeadline:March25,2014OralDefenseDate:Ma

3、y30,2014万方数据万方数据重庆理工大学学位论文原创性声明本人郑重声明:所呈交的学位论文是本人在导师的指导下,独立进行研究所取得的成果。除文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果、作品。对本文的研究做出重要贡献的集体和个人,均已在文中以明确方式标明。本人承担本声明的法律后果。作者签名:日期:年月日学位论文使用授权声明本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权重庆理

4、工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于(请在以下相应方框内打“√”):1.保密□,在年解密后适用本授权书。2.不保密□。作者签名:日期:年月日导师签名:日期:年月日万方数据摘要摘要随着移动互联技术的迅猛发展,微博这一新兴的社交网络平台快速兴起,成为广大用户的一种新的交流方式。用户以微博为载体,可以方便快捷地发表观点,进行信息交流、互动、资源共享。微博平台特有的时效性和随意性,使得微博信息能够快速传播及扩散,在现实社会

5、中产生强大的影响力。在微博文本中,隐含着大量时政要点、突发事件等有价值的信息。对微博文本进行热点话题的提取、检索,可以帮助用户迅速了解社会中的实时热点信息,对网络舆情监控和信息即时搜索,具有重要的现实意义。但是,微博文本具有大数据的特征,难以由人工进行识别和过滤。由此,通过寻求相关信息过滤手段,研究微博文本热点话题的自动检测技术,成为信息检索领域研究的热点。论文首先介绍了话题检测的背景,研究现状及相关技术;接着分析了中文微博的信息特点及传播特点;针对热点话题检测的信息过滤问题,提出了一种用户角色定位方法。该方

6、法通过用户个人粉丝数和关注数指标来计算用户关注度;通过微博转发数和评论数来计算微博影响力;再通过用户关注度和微博影响力来综合评估用户影响力。通过对用户角色的定位,实现了热点话题检测前的信息粗度过滤。然后,采用基于改进的Single-Pass增量式聚类算法,对微博信息进行初步话题检测;最后结合微博转发数、评论数等话题热度的影响因素,进行微博话题热度的评估和排序,从而找到一定时间段内的热点话题。论文对中文微博话题检测中的文本预处理、文本特征选取方法等进行了优化,采用结合语义相似度的TF-IDF函数计算特征权重。基

7、于上述方法,论文以新浪微博语料为载体展开了相关实验,并以TDT会议评测规范中的召回率、漏检率、错检率和误测开销值作为评价指标,对实验结果进行了分析和比较。实验表明,论文提出的用户角色定位方法可以有效地实现微博用户类别的划分,为热点话题检测的信息过滤提供了基础;运用基于用户关注度和微博影响力的评估方法,论文对热点话题提取的的漏检率和误检率指标分别降低到了20.38%和1.98%,取得了优于传统话题检测的效率和精准率,证明了论文所提方法的有效性。关键词:中文微博;话题检测;用户角色;语义相似度;Single-Pa

8、ss聚类I万方数据万方数据重庆理工大学硕士学位论文ABSTRACTWiththerapiddevelopmentofmobileInternettechnology,microblogging,anewsocialnetworkplatformhasrapidlyrisen,andhasbecomeanewwayofcommunicatingforusers.Microbloggingasacarr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。