微博热点话题检测与跟踪技术研究

微博热点话题检测与跟踪技术研究

ID:35078114

大小:5.72 MB

页数:61页

时间:2019-03-17

微博热点话题检测与跟踪技术研究_第1页
微博热点话题检测与跟踪技术研究_第2页
微博热点话题检测与跟踪技术研究_第3页
微博热点话题检测与跟踪技术研究_第4页
微博热点话题检测与跟踪技术研究_第5页
资源描述:

《微博热点话题检测与跟踪技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10286分类号:_EEm^密级;公巧UDC:004.02’主’学号1:13328’'户?4.1,,n則'^一^>-雨4-.h#7?:檢M-棘’?東禹大狡工程硕±学位论文微博热点话题检测与跟踪技术硏究学位论文形式:应用研究)研究生姓名:吕伟导师姓名:陶军王宏宇申请学化类别工程硕±学位授予单位东南大学工程领域名称计》化技术论文答辩日期2016年06月的日研究方向计》机应用按术学位授予日期20年月日答辩委员会丰席

2、涅玉庆评阅人扬巧黄松华2016年6月4日表兩未聲硕壬学位论文微博热点话题检测与跟踪技术研究专业名称;计貸化巧术研究生姓名:吕伟导师姓名;陶军王宏宇RESEARCHOFBURSTTOPICDETECTIONANDTARCKINGBASEDONMICROBLOGAThesisSubmittedtoSoutheastUniversityFortheProfessionalDegreeofMasterofEngineeringBYL

3、VWeiSuervisedbpyAssociatePro佐ssorTAOJunSeniorEnineerWANGHonuggySoutheastUniversit&MonashUniversitJointGraduateSchoolyySoutheastUniversityMa2016y东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进巧的研究工作及取得的研巧成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的

4、研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研巧所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名::_日期^东南大学学位论文使用授权黄明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文。的复印件和电子文档,可W采用影印、缩印或其他复制手段保存论文本人电子文档一的内容和纸质论文的内容相致。除在保密期内的保密论文外,允许论文被査阅和借(阅,可W公布包括W电子信息形式刊登)论文的全部内容或中、英文摘要等部分内容。论文的

5、公布(包括W电子信息形式刊登)授权东南大学研巧生院办理。研究生签名:导师签名:日期:々d.LJ&L_)^摘要话题检测与跟踪是指从海量数据中发现被最多讨论的话题并在后续信息中跟进话题的发展变化状态,为人们解决愈发严重的信息爆炸问题。话题检测与跟踪可W节省用户时间;,,跟进事件发展动态为舆情监控提供数据支持有重要的实际价值和安全意义。随着越来越多的用户使用微博进行信息发布和话题讨论,热点话题展示也逐渐变成一,微博平台的个重要功能,。由于微博的即时性很强突发新闻在微博上的传播速度很快而且对于影响力较大

6、的新闻事件,参与报道、转发、评论的用户数量也很大,往往能够,,先于传统新闻媒体做出反应。因此针对微博的特点,本文通过过滤无效微博设计并一实现了种针对微博的热点话题跟踪及检测方法,主要工作如下:1分析了微博特性,过滤了无效微博。微博用户人群复朵,涵盖范围广,差别大,)。内容驳杂通过分析微博用户特征,包括用户粉丝数与用户每日发布微博数,过滤广告用户与值尸用户,,,用;通过分析微博内容过滤商家推广活动与用户分享内容户参与的活动等大量对话题无贡献的微博;通过分析分词后的微博数据,过滤包含词数过多和,和重复过多的过长文本

7、,过少的微博,去除无意义的过短文本,有效过滤无效微博降低计算复杂度。巧设计并实现了基于时间特性的微博热点话题检测算法。将微博按时间递增顺序处-理,通过改进SinglePass聚类算法,包括相似度计算方法的改化结合用户影响为的话FP-G题向量更新方法的改进,row化频繁项集发现算法进行初步话题检测;利用,挖掘频繁特征词集-MEDO瓜S算法对频巧特征词集进,修正SP算法的错误;利用改进的K,。行聚类,抽取最终话题提高了计算效率与话题检测的准确率3)设计并实现了基于时间特性的多查询向量自适应话题跟踪算法。基于微博数量

8、在,将微博按时段分姐,并按时间递増顺序处理时间维度上的分布特征;将每个时段的话题与已存在所有话题姐的所有话题进行相似度计算对比,根据阔值选择将其归入已存在话题组或创建新的话题组,自

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。