欢迎来到天天文库
浏览记录
ID:50118642
大小:2.63 MB
页数:66页
时间:2020-03-06
《社交网络的热点话题发现研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、社交网络的热点话题发现研究刘嘉2015年1月中图分类号:UDC分类号:社交网络的热点话题发现研究作者姓名刘嘉学院名称自动化学院指导教师王庆林教授答辩委员会主席戴亚平教授申请学位工学硕士学科专业控制科学与工程学位授予单位北京理工大学论文答辩日期2015年1月ResearchonTopicDiscoveryMethodforSocialNetworkCandidateName:JiaLiuSchoolorDepartment:SchoolofAutomationFacultyMentor:Prof.Qing
2、linWangChair,ThesisCommittee:Prof.YapingDaiDegreeApplied:MasterofEngineerMajor:ControlScienceandEngineeringDegreeby:BeijingInstituteofTechnologyTheDateofDefence:January,2015摘要近几年,互联网技术发展迅猛,网络的便捷性使得互联网在人与人的交流沟通上具有天生的优势,因此社交网络已成为互联网技术发展的“排头兵”。社交网络中比较具有代表性的
3、是微博客的出现,很多社会热点话题往往都是从微博开始传播,如何从微博中找到热点话题,是非常有现实意义的工作。基于以上背景,本文针对社交网络热点话题发现工作进行了研究,设计了一种基于分类的话题发现方法。本方法的优势在于提升了短文本发现的精确度,优化了话题发现结果的表达。本文的主要工作和研究内容如下:第一,设计了一种基于分类的话题发现方法,解决了原有的话题发现方法在应用于社交网络文本时精度不高,容易将同一关键字下的不同话题混淆的问题。本方法主要包括以下几个步骤:微博数据采集、数据预处理、文本分类、改进的主题发
4、现方法、改进的话题表现形式。其中文本分类环节、话题表现形式的改进均为原有的话题发现流程所不具备的环节。第二,在主题发现方法的改进上,采用了基于LDA主题模型的话题发现方法,将其分为三个步骤:中文分词、LDA主题建模、主题聚类。在中文分词环节,加入了新词发现模块,提高了分词准确率。第三,在文本分类的环节中,利用本体来抓取训练语料,进行了特定领域主题发现的尝试,进而推广至广域的话题发现领域,在传统的话题发现流程中加入了文本分类这一环节,以提高话题发现的准确率。在话题表现形式上,设计了中心句的相似度计算方法,
5、利用微博的中心句和内容,将原有的主题—词语模型转化为完整的语句,直观的向用户展示话题发现的最终结果。在新浪微博实时数据基础上进行的实验表明,本文所提出的方法对原有的话题发现方法的准确率有一定的提升,能够寻找出潜在话题的中心句,具有一定的实用价值和可扩展性。关键词:社交网络,主题发现,潜在语义分析,分类IAbstractWiththedevelopmentofInternettechnology,theconvenienceoftheInternetmakesiteasierforpeopletocomm
6、unicatewitheachotherinrecentyears.ThefastestgrowingpartoftheInternetissocialnetworknow.Themosttypicalexampleofsocialnetworkistheemergenceofmicroblog,whichallowspeopletoexpresstheirpointswheneverandwhereveritispossibleviamobilephonesandcomputers.Themethod
7、offindingtopicfrommicroblogispracticalsignificantbecausemanysocialhottopicsoftenbeginwithmicroblog.Thispaperaimsatthediscoveryofhottopicinsocialnetwork.Atopicdetectionmethodisproposedbasedonclassification.Itsadvantageistoimprovetheshorttexttopicdetection
8、andoptimizetheexpressionoftopicdetectionresults.Themainworkisasfollows:Firstly,atopicdiscoverymethodisdesignedbasedonclassification,whichmakeupforthedeficienciesintheoriginaltopicdetectionmethodwhichiseasytobeconfusedwitht
此文档下载收益归作者所有