欢迎来到天天文库
浏览记录
ID:35089185
大小:6.51 MB
页数:54页
时间:2019-03-17
《海量短文本的主题挖掘及其可视化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、―—-扛击/養手11TP3学校代码:065图书分类号:备东為妹乂乐专II學位砸古尊億论文论文题目海量短女本的主题挖掘及其可视化硕±生姓名胡浩第一导师姓名李平专业学位类型计篇机巧术自然语言处巧硏究方向二〇—六年六月西南石油大学研究生学位论文知识产权声明书及学位论文版权1吏用授权书本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西南石油大学。学校有权保留并向国家有关部口或机构送交论文的复印件和电子版。本人允许论文被查阅
2、和借阅。学校可W将本学位论文的全部或部分、内容编入有关数据库进行检索,可W采用影印缩印或扫描等复制手段保存和汇编本学位论文一。同时,本人保证,毕业后结合学位论文研究课题再撰写的文章律注明作者单。位为西南石油大学.本学位论文属丰1、保密(在年解密后适用本授权书。2、不保密(乂/)""(请在W上相应括号内打V);指导教师签名;学位论文作者签名_又。/(年^月。曰'耗台月曰与西南石油大学研究生学位论文独创性声明本人声明:所呈交的研究生学位论文是本人在导师指导下进行的研究工作及取得
3、的研巧成果。据我所知,除了文中特别加W标注和致谢的地方外,本论文不包含其他人己经发表或撰写过的研巧成果,也不包含其他人为获得西南石油大学或其它教育机构的学■一位或证书而使用过的材料。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名;^A年月日J摘要随着移动互联网的迅速发展,互联网已经成为人们重要的思想交流平台,从MSN到腾讯QQ,从Twiter到微博,各式各样的网络平台正悄然改变世界,例如信息的传播方式、市场营销方式等。与此同时,化交网络中产生
4、的短文本信息呈爆炸式增长,其中包含了大量不可估量的商业价值和社会价值,如何挖掘出隐藏在海量文本消息中的有。用信息已经成为人们的迫切需求然而,短文本消息的独特特征使得传统方法很难对其进行建模,语义特征的稀疏性使模型往往得不到很好的效果。受深度学习在自然语言处理领域的应用启发,本文采用深度学习方法来对短文本消息进行主题挖掘。本文首先分析中文短文本消息和微博消息的特点,其次研究深度学习在文本挖掘上一Short的应用,并在此基础上提出种基于长短时记忆模型(LonTermMemorySTM)g,L的方法
5、来对短文本消息进行处理,相对于大多数传统基于词袋模型的文本挖掘方法,它的主要不同么处在于LSTM考虑了整个句子的结构信息,而不是简单的字或词的出现.一频率。此外,本文试探性地使用深度学习的方法进行中文短文本主题挖掘,并提出种一基于中文汉字笔画的字向量映射方法,在定程度上解决了中文汉字的输入问题。通过一>10^个32维的向量分析研究中文汉字的造字方法1^及读音规则,可其映射为,从而(^一作为深度神经网络的输入。1^8了]^1属于反馈神经网络的种,它可1^1很好的处理序列数据一TM,而文本数据恰好是种具有空
6、间顺序的序列数据。从而,借助于LS对序列数一据处理的优点,文本的语义信息能够在定程度上被提取出来。最后,采用新浪微博消息作为测试数据,实验表明本文提出的基于笔画嵌入的LSTM-RNN在主题挖掘任务上是有效可行的。实验过程中,将经典的基于短文本消息的主题模型作为对照,从而验证了该方法的准确性。:关键词主题建模;深度学习:字嵌入;LSTM;文本挖掘;AbstractWiththerapiddevelopmentofmoWleInl:emet,theInternethasbecomean
7、important-latformfortheexchaneoftt.AideasfromMSNtoandTwiertomicroblovarietofpg,QQgynetworkat仿rms3化uietlchaninteworldandthetraditionalmediaofplqygghcommuncatonandmarketinaroac.Attesametimetsrtl;extnrmationwhciigpphh,hehoifo,
8、ihgeneratedi打social打etworksa打dCO打tainsalarge打umberofimmeasurablecommercialandsocialvalueisexlodin.Howtouse1:e
此文档下载收益归作者所有