欢迎来到天天文库
浏览记录
ID:35070396
大小:2.42 MB
页数:63页
时间:2019-03-17
《基于词嵌入模型的社会媒体话题识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号TP391学校代码10590UDC004密级公开深圳大学硕士学位论文基于词嵌入模型的社会媒体话题识别研究学位申请人姓名李晶专业名称计算机科学与技术学院(系、所)计算机与软件学院指导教师姓名陶兰教授、傅向华教授深圳大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文基于词嵌入模型的社会媒体话题识别研究是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律后果由本人承担。论文作者签名:日
2、期:年月日基于词嵌入模型的社会媒体话题识别研究摘要21世纪是一个网络化、信息化高速发展的时期,近年来随着移动互联网的迅猛发展,web2.0应用的普及,微博、博客、论坛等大规模社会媒体不断涌现,使得普通民众在web上自由地发表观点、表达意见变得越来越便捷。大量的用户在线言论可以集中反映网民们一段时间内关心和关注的话题,因而对其内容进行深度挖掘和分析就显得尤为重要。然而目前大部分基于社会媒体信息的话题识别工作都还只是从数据本身的属性出发,以词为基本特征,根据词频统计进行概率计算,较少考虑词语之间的语义联系。本文以社会媒体为研究对象,对其内容进行话题检测与分析,主要工作包括
3、如下两个部分:(1)在社会媒体特征表达方面,针对现有的词嵌入学习模型未考虑词语内部语序关系,且训练过程中仅使用局部上下文对目标词进行预测而导致的词语语义信息不足的缺陷,提出同时考虑词序和多语境的词嵌入模型。该模型在word2vec词嵌入模型的基础上,先通过整合其两种编码方式相同但训练过程相反的模型结构(SKIP和CBOW)来获取词的语义和词义信息,然后在对滑动窗口内的每一个目标词进行概率预测时,综合考虑了其上下文局部语境和全局语境,从而在保持文本内词语间语序不变的情况下,获得同时包含语义和语法信息的词嵌入表示。(2)现有的概率话题模型多以词为基本单位,根据主题、词之间
4、的共现关系进行话题概率计算,很少考虑词的语义信息,而在具体的社会媒体话题检测中,由于社会媒体存在短文本、信息量少、噪声数据多等特点,导致直接话题识别的准确率较低。针对这些问题,本文在原有LDA模型的基础上,引入外部知识作为语义扩展,并结合(1)中学习到的词嵌入表示,重新定义主题向量-词嵌入的条件概率分布函数,在此基础上通过最小化其与原始主题-词分布之间的KL散度,来对词嵌入和主题模型进行协同训练,从而达到将词嵌入特征表达学习与话题识别统一起来的目的。与word2vec及LDA话题模型的实验比较证明,该方法在词的特征学习和话题检测方面均有比较明显的提升。关键词:社会媒体
5、;话题检测;特征表达;词嵌入;话题模型IResearchofTopicDetectionforSocialMediaBasedonWordEmbeddingModelAbstractThetwenty-firstcenturyisanerawithrapiddevelopmentofnetworkandinformationtechnology.Inrecentyears,withthepopularityofmobileInternetandweb2.0application,itriseslotsofsocialmediassuchasmicro-blog,blo
6、g,forumandsoon,whichmakethecommonpeopletoexpresstheirviewsmoreandmoreconvenientontheweb.Largenumbersofonlinecommentscanreflectattitudes,opinionsandrequirementsofthepublicforaperiodoftime,timelyandaccuratelygrasp,deeplyminingandanalysiswhattheInternetusersarediscussingisextremelyimportan
7、t.However,mostofthecurrenttopicrecognitionworkaboutsocialmediaarebasedontheattributesofdata,theyregardwordasthebasicfeature,andthencalculateprobabilityofwordsaccordingtowordfrequency,thesemanticinformationareusuallyignored.Inthispaper,weconductourresearchonthesocialmediadataset
此文档下载收益归作者所有