试析基于动态反馈的blog话题追踪方法

试析基于动态反馈的blog话题追踪方法

ID:34824940

大小:1.40 MB

页数:58页

时间:2019-03-11

试析基于动态反馈的blog话题追踪方法_第1页
试析基于动态反馈的blog话题追踪方法_第2页
试析基于动态反馈的blog话题追踪方法_第3页
试析基于动态反馈的blog话题追踪方法_第4页
试析基于动态反馈的blog话题追踪方法_第5页
资源描述:

《试析基于动态反馈的blog话题追踪方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于动态反馈的Blog话题追踪方法TopicTrackinginBlogspaceBasedonDynamicFeedback王铭哈尔滨工业大学2010年12月I国内图书分类号:TP301.6学校代码:10213国际图书分类号:004.02密级:公开工学硕士学位论文基于动态反馈的BLOG话题追踪方法硕士研究生:王铭导师:叶允明教授申请学位:工学硕士学科、专业:计算机科学与技术所在单位:深圳研究生院答辩日期:2010年12月授予学位单位:哈尔滨工业大学IIClassifiedIndex:TP301.6U.D.

2、C:004.02DissertationfortheMasterDegreeinEngineeringTopicTrackinginBlogspaceBasedonDynamicFeedbackCandidate:MingWangSupervisor:Prof.YunmingYeAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateo

3、fDefence:December,2010Degree-Conferring-Institution:HarbinInstituteofTechnologyIII哈尔滨工业大学工学硕士学位论文摘要随着Internet的高速发展,博客作为一种新兴的信息传播手段,发挥着越来越重要的作用。而话题追踪技术是针对已知话题、面向文本信息流的信息处理技术。它在信息抽取和舆情监控方面有很大的实用价值。目前,专门针对博客数据的话题追踪算法并不成熟,这跟博客自身有不同于普通新闻信息的信息结构有关,博客具有数量庞大和形式多样的特定,切博客

4、更能反映大众的观点,有很大的研究价值。本文利用博客数据,进行话题追踪方法的研究,主要作的工作包括以下几点:1).对特征选择方式TFIDF的改进。本文结合博客数据特性和文本结构特性,设计了比较合适的话题模型。并改进了TFIDF的特征选择计算方法,得到改进的TFIDF公式,并做了大量的对比实验以验证改进TFIDF的有效性。2).话题追踪算法的改进。针对传统的增量聚类的缺陷,本文提出基于反馈动态调整的话题追踪算法。该算法由话题追踪器动态调整和新话题模型生成算法组成。追踪器动态调整算法解决了传统增量聚类中动态合并文本信息的盲目

5、性。新话题模型生成算法既巩固话题原始特征,有兼顾了话题中新出现的特征,对话题漂移现象有很好的预防主用。3).话题阶段特征的提取算法。话题阶段特征的提取,主要包括阶段名称的提取、阶段特征新词和阶段特征变化词组成。话题阶段特征能很好的体现出当前追踪过程在话题的发展过程中所处的阶段,对话题的展示和话题趋势发展有很好的推动作用。基于以上的研究成果,构建了以本文基于反馈动态调整的话题追踪算法为核心的话题追踪原型系统。该系统主要包含五大模块:数据库交互模块、模型初始化模块、话题追踪模块、话题阶段特征提取模块和话题展示模块。通过编程

6、技术,实现了该话题追踪原型系统,并力求系统设计合理,稳定,易于扩展。该系统为后续话题追踪的更深入研究打下了坚实的基础。关键词话题追踪;博客;话题模型;话题追踪器I哈尔滨工业大学工学硕士学位论文AbstractWiththerapiddevelopmentofInternet,theblogasanewmeansofinformationdissemination,isplayinganincreasinglyimportantrole.Thetopictrackingtechnologyisknownforthetop

7、ic,thetextinformationflowforinformationprocessing.Itisintheinformationextractionandmonitoringofpublicopinionhasgreatpracticalvalue.Currently,thetopic-specificblogdatatrackingalgorithmisnotmature,whichisdifferentfromtheordinarywiththeblogitselfhasinformationonnew

8、sandinformationrelatedtothestructure,andahugenumberofbloghasavarietyofspecific,Qiebocustomerstobetterreflectthepublic'spointofview,thereareGreatresearchvalue.Inthispa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。