欢迎来到天天文库
浏览记录
ID:50116820
大小:1.50 MB
页数:57页
时间:2020-03-05
《基于改进的TF-IDF算法的中文微博话题检测与研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于改进的TF-IDF算法的中文微博话题检测与研究金镇晟2015年6月中图分类号:TP391UDC分类号:004基于改进的TF-IDF算法的中文微博话题检测与研究作者姓名金镇晟学院名称计算机学院指导教师陈朔鹰答辩委员会主席石峰申请学位工学硕士学科专业计算机科学与技术学位授予单位北京理工大学论文答辩日期2015年6月ResearchonTopicDetectionofWeiboBasedonImprovedTF-IDFAlgorithmCandidateName:ZhenshengJinSchoolorDepartment:SchoolofCom
2、puterScience&TechnologyFacultyMentor:ShuoyingChenChair,ThesisCommittee:FengShiDegreeApplied:MasterofPhilosophyMajor:ComputerScienceandTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence:June,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外
3、,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要随着计算机技术的日新月异,web2.0已发展得日趋完善,围绕着web2.0的应用更是不断出现。基于此背景下,网络社交平台出现了野蛮型增长,对人们的生活、交友、购物、发表言论都发生了革命性的影响,其中以Twitter和新浪微博最具代表性。通过微博,人们可以随时随地发表自己的观点或者发布听到的
4、、看到的新鲜事,自己既是信息发布者又是信息传播者。在网络上的信息变得丰富多彩的同时,面对超负荷的巨大信息量,也使人们产生阅读困扰。如何在海量微博信息中快捷、准确地获取感兴趣的内容成了人们面临的一个新的难题。为更好的解决上述问题,本文深入研究、对比近几年国内外的话题检测技术成果,通过分析中文微博的特点,在前人研究的基础上提出了一种改进的话题检测算法。中文微博具有更新快、时效性强等特点,产生的热点话题均具有一定的突发性,与此同时文本中有代表性的特征词也会随之激增,特征词在短时间内的增加是话题特征增强的表现,许多话题检测方法都忽略特征词的时间这一属性
5、,所以本文利用特征词的时间属性和增长程度这对属性,在传统的TF-IDF(TermFrequency-InverseDocumentFrequency)基础上提出一种改进的特征提取算法,称之为TF-IDF-KE(TermFrequency-InverseDocumentFrequency-KineticEnergy),用以解决突发性热点话题在聚类时特征不明显的问题。该算法结合物体的动能原理,将特征项的突发值用动能的概念进行描述,加入到权值计算中,提高突发性特征项的权重,最后进行文本聚类,实现微博的话题检测。该方法描述了文本和特征项所具有的动态属性
6、,实验结果表明,该方法能够有效地提高话题检测的效果。关键词:中文微博;TF-IDF;话题检测;TDT;文本聚类;I北京理工大学硕士学位论文AbstractWiththedevelopmentofcomputertechnology,Web2.0hasbeenmoreandmoreperfectandtherearemoreandmoreapplicationsbasedontheWeb2.0.Basedonthisbackground,thesocialnetworkingplatformappearedbarbaricgrowth,andit
7、hasarevolutionaryimpacttothepeople'slife,makingfriends,shoppingandcommunication.Inallthesocialnetworkingplatforms,TwitterandSinaWeiboarethemostrepresentative.BymeansofWeibo,peoplecanexpresstheirviewsortalkaboutsomenewswhicharehearedorsawwheneverandwhereverpossible.Theycanbeb
8、othauthorandthepersonwhocarriedthemessage.Theinformationonthenetworkbecomes
此文档下载收益归作者所有