基于内容分析的blog话题检测方法研究

基于内容分析的blog话题检测方法研究

ID:32538459

大小:1.70 MB

页数:66页

时间:2019-02-11

基于内容分析的blog话题检测方法研究_第1页
基于内容分析的blog话题检测方法研究_第2页
基于内容分析的blog话题检测方法研究_第3页
基于内容分析的blog话题检测方法研究_第4页
基于内容分析的blog话题检测方法研究_第5页
资源描述:

《基于内容分析的blog话题检测方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、国内图书分类号:TP311.12学校代码:10213国际图书分类号:004.628密级:公开硕士学位论文基于内容分析的Blog话题检测方法研究硕士研究生:何金艳导师:黄哲学教授副导师:叶允明副教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2009年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311.12U.D.C:004.628DissertationfortheMasterDegreeofEngineeringRESEARCHONTOPIC

2、DETECTIONINBLOGOSPHEREBASEDONCONTENTANALYSISCandidate:JinyanHeSupervisor:Prof.ZhexueHuangAssociateSupervisor:AssociateProf.YunmingYeAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDat

3、eofDefence:December,2009Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要话题检测技术是面向文本信息流进行未知话题识别的信息处理技术,它是话题检测与追踪技术的重要组成部分。这项技术旨在从特定时间和地点发生的事件扩展为具备更多相关外延的话题,它在信息抽取和舆情监控方面有很大的实用价值。目前,常见的话题检测算法大多面向具备突发性和延续性规律的新闻网站语料,而专门针对博客空间的话题检

4、测算法并不成熟,这是因为博客属于个人媒体,跟新闻语料相比,具有数据量庞大和形式多样化的特点。本文通过对博客数据的结构深入分析,明晰了对博客数据进行话题检测的主要技术需求。针对博客数据形式多样化的特点,选取必要特性转化为新的话题模型——话题质心和关键词序列为主的话题模型,并基于该话题模型设计了话题检测算法,话题关键词提取算法,专题提取算法。本文的主要贡献体现在以下几个方面:(1)本文设计了符合博客数据特性的话题模型。话题模型由多个特征组成,其中包括:话题名称、关键词序列、话题质心、博文集合、话题发起

5、时间。话题模型贯穿于本文的三个核心算法:话题检测算法和话题关键词提取算法在博文的基础上生成话题模型;专题抽取算法在话题模型的基础上作进一步话题组织工作。(2)文中通过分析各类常用的文本聚类算法,从中选取了增量聚类算法作为话题检测算法的基础。引入了改进话题检测效果的三项优化策略:话题质心更新、文本过滤、话题模型选择。通过对比实验证明了话题检测算法的有效性。(3)设计了话题关键词提取算法,为每一个话题提取标志性词汇集合。此算法主要采用了文本特征选择的互信息原理,并引入了对在博文标题中出现的词进行加权的

6、优化策略。通过实验证明了关键词提取算法的有效性。(4)在话题模型的基础上实现了专题提取算法。该算法以层次聚类思想为基础,主要选用了话题模型特征中的三项特征:关键词集合、话题质心、话题发起时间。对各项特征建立不同的相似度计算公式,以计算话题模型之间的相似度。最后通过实验证明了专题提取算法的有效性。基于以上研究成果,本文设计博客话题检测系统,该系统由五大模块组成:数据库模块,数据预处理模块,话题检测模块,话题模型特征提取模块,专题提取模块。通过编程技术实现了Blog话题检测原型系统,为博客话题检测技术

7、-I-哈尔滨工业大学工学硕士学位论文的研究打下了坚实的基础。关键词:博客;话题检测;话题模型;专题提取-II-哈尔滨工业大学工学硕士学位论文AbstractTopicdetectiontechnologyisanunknowntopicidentificationtechnologyfacedtotext-orientedinformationflow,whichisanimportantcomponentoftopicdetectionandtrackingtechnology.Thistech

8、nologyseeksaparticulartimeandplaceeventsinexpandedwithmoretopicsrelatedtooutreach,whichhasgreatpracticalvalueintheinformationextractionandmonitoringofpublicopinion.Atpresent,themostcommontopicdetectionalgorithmsaredesignedtodealwiththenewswebs

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。