欢迎来到天天文库
浏览记录
ID:33935566
大小:967.15 KB
页数:58页
时间:2019-03-01
《基于倒排索引微博话题检测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、国内图书分类号:TP391.3学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文基于倒排索引的微博话题检测硕士研究生:刘红雨导师:陈清财教授申请学位:工程硕士学科:计算机技术所在单位:深圳研究生院答辩日期:2012年12月授予学位单位:哈尔滨工业大学IClassifiedIndex:TP391.3U.D.C:621.3DissertationfortheMasterDegreeofEngineeringINVERTEDINDEXBASEDMICRO-BLOGTOPICDETECTIONCandidate:HongyuLiuSupervisor:Prof.Qingcai
2、ChenAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2012Degree-Conferring-Institution:HarbinInstituteofTechnologyII哈尔滨工业大学工程硕士学位论文摘要随着微博这种新兴的社交平台迅速发展,越来越多的用户使用,并且在上面发布事件信息,由于微博的传播速度非常迅速,对新闻传播的意义非常大,从微博数据中发现热点事件有着极大的需求
3、。但是由于微博数据拥有规模大、噪声多、文本较短等特点,给话题检测与跟踪带来了巨大的挑战。本文在别人研究关于话题检测与跟踪的基础上,分析传统的话题检测与跟踪算法的缺点,提出一个基于倒排索引的方法来提高算法的处理速度,但不降低算法的精度。通过对微博数据分析,人工建立一些规则对微博数据进行噪声处理。然后对数据建立倒排索引,并进行话题检测与跟踪。对于每天获取的新的事件,根据事件的熵值和用户数量对事件进行排序,将列表前20的事件与之前的旧事件进行合并。在合并之前,利用基于衰老理论的方法来得到需要合并的旧事件集合。本文同时分析了AP聚类算法在微博数据集上的结果。为了验证算法效率的提升,本文通过在不同级
4、别的数据集上对比传统的SINGLE-PASS算法和基于倒排索引的改进算法的处理时间,通过实验对比得知,基于倒排索引改进的算法能达到6-7倍的速度提升,性能远远高于传统的文本聚类算法。由于实验没有标准的语料集合,本文通过人工标注的方式获得了一个测试集合,测试集合包含26个事件,共计2817篇文档。通过在测试集合上面的实验分析,本文提出的算法能够获得较好的精度。本文还对比了不同的权重计算方式在微博数据上面的结果。同时还对比了AP聚类算法和SINGLE-PASS算法在微博数据集上的结果。由于微博数据量比较大,文本聚类算法会得出很多用户不感兴趣的事件,本文通过计算事件的熵值和参与事件的用户数量对事
5、件进行排序。通过对比发现,这种方法能够将用户感兴趣的话题排在事件列表前面。结合本文提出的算法,设计了一个微博话题检测系统,用于发现微博数据中产生的重大事件。关键词:话题检测与跟踪;倒排索引;AP算法;动态窗口-I-哈尔滨工业大学工程硕士学位论文AbstractWiththerapiddevelopmentofmicro-blog,anemergingsocialnetwork,moreandmoreusersuseitandpostnews.Thereisagreatdemandindetectinghoteventsinmicro-blogdata,becauseofthefastpro
6、pagationofmicro-blogandgreatsignificanceofnewsspread.Howeverthereishugechallengeintopicdetectionandtrackingbecauseofthelarge-scale,muchnoiseandshortertextofmicro-blogdata.Afteranalysistheshortcomingsofthetraditionaltopicdetectionandtrackingalgorithm,thispaperproposedaninvertedindexbasedmethodtoinc
7、reasetheprocessingofthealgorithm,buthavenoharmtotheaccuracyofthealgorithm.Someartificialrulesareestablishedtoremovethenoiseafteranalysisthemicro-blogdata.Topicdetectionandtrackingalgorithmisprocessedafterinverted
此文档下载收益归作者所有