欢迎来到天天文库
浏览记录
ID:32538459
大小:1.70 MB
页数:66页
时间:2019-02-11
《基于内容分析的blog话题检测方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、国内图书分类号:TP311.12学校代码:10213国际图书分类号:004.628密级:公开硕士学位论文基于内容分析的Blog话题检测方法研究硕士研究生:何金艳导师:黄哲学教授副导师:叶允明副教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2009年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311.12U.D.C:004.628DissertationfortheMasterDegreeofEngineeringRESEARCHONTOPIC
2、DETECTIONINBLOGOSPHEREBASEDONCONTENTANALYSISCandidate:JinyanHeSupervisor:Prof.ZhexueHuangAssociateSupervisor:AssociateProf.YunmingYeAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDat
3、eofDefence:December,2009Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要话题检测技术是面向文本信息流进行未知话题识别的信息处理技术,它是话题检测与追踪技术的重要组成部分。这项技术旨在从特定时间和地点发生的事件扩展为具备更多相关外延的话题,它在信息抽取和舆情监控方面有很大的实用价值。目前,常见的话题检测算法大多面向具备突发性和延续性规律的新闻网站语料,而专门针对博客空间的话题检
4、测算法并不成熟,这是因为博客属于个人媒体,跟新闻语料相比,具有数据量庞大和形式多样化的特点。本文通过对博客数据的结构深入分析,明晰了对博客数据进行话题检测的主要技术需求。针对博客数据形式多样化的特点,选取必要特性转化为新的话题模型——话题质心和关键词序列为主的话题模型,并基于该话题模型设计了话题检测算法,话题关键词提取算法,专题提取算法。本文的主要贡献体现在以下几个方面:(1)本文设计了符合博客数据特性的话题模型。话题模型由多个特征组成,其中包括:话题名称、关键词序列、话题质心、博文集合、话题发起
5、时间。话题模型贯穿于本文的三个核心算法:话题检测算法和话题关键词提取算法在博文的基础上生成话题模型;专题抽取算法在话题模型的基础上作进一步话题组织工作。(2)文中通过分析各类常用的文本聚类算法,从中选取了增量聚类算法作为话题检测算法的基础。引入了改进话题检测效果的三项优化策略:话题质心更新、文本过滤、话题模型选择。通过对比实验证明了话题检测算法的有效性。(3)设计了话题关键词提取算法,为每一个话题提取标志性词汇集合。此算法主要采用了文本特征选择的互信息原理,并引入了对在博文标题中出现的词进行加权的
6、优化策略。通过实验证明了关键词提取算法的有效性。(4)在话题模型的基础上实现了专题提取算法。该算法以层次聚类思想为基础,主要选用了话题模型特征中的三项特征:关键词集合、话题质心、话题发起时间。对各项特征建立不同的相似度计算公式,以计算话题模型之间的相似度。最后通过实验证明了专题提取算法的有效性。基于以上研究成果,本文设计博客话题检测系统,该系统由五大模块组成:数据库模块,数据预处理模块,话题检测模块,话题模型特征提取模块,专题提取模块。通过编程技术实现了Blog话题检测原型系统,为博客话题检测技术
7、-I-哈尔滨工业大学工学硕士学位论文的研究打下了坚实的基础。关键词:博客;话题检测;话题模型;专题提取-II-哈尔滨工业大学工学硕士学位论文AbstractTopicdetectiontechnologyisanunknowntopicidentificationtechnologyfacedtotext-orientedinformationflow,whichisanimportantcomponentoftopicdetectionandtrackingtechnology.Thistech
8、nologyseeksaparticulartimeandplaceeventsinexpandedwithmoretopicsrelatedtooutreach,whichhasgreatpracticalvalueintheinformationextractionandmonitoringofpublicopinion.Atpresent,themostcommontopicdetectionalgorithmsaredesignedtodealwiththenewswebs
此文档下载收益归作者所有