基于微博旅游信息的中文关键词提取与分析研究

基于微博旅游信息的中文关键词提取与分析研究

ID:37022819

大小:1.48 MB

页数:73页

时间:2019-05-16

基于微博旅游信息的中文关键词提取与分析研究_第1页
基于微博旅游信息的中文关键词提取与分析研究_第2页
基于微博旅游信息的中文关键词提取与分析研究_第3页
基于微博旅游信息的中文关键词提取与分析研究_第4页
基于微博旅游信息的中文关键词提取与分析研究_第5页
资源描述:

《基于微博旅游信息的中文关键词提取与分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于微博旅游信息的中文关键词提取与分析研究ChineseKeywordExtractionandAnalysisBasedonTourismWeibo学科专业:控制科学与工程作者姓名:郭豪指导教师:薛俊韬副教授天津大学电气自动化与信息工程学院二零一七年十一月摘要随着自然语言处理的快速发展,关键词提取和情感分析已经成为热门的研究方向。对关键词提取和情感分析进行研究有利于把握文本的主题和提供相应的决策,因此,相关的研究具有十分重要的理论意义和社会价值。作为中文社交平台,新浪微博对我们的日常生活产生了重要的影响。在新浪微博上发表的旅游微博具有短小简洁、突出主题

2、、即时性、互动性、动态性等特点。本文以旅游微博作为研究对象,对关键词提取和情感分析算法进行了研究,主要研究内容如下:(1)针对传统的TF-IDF算法存在着过于依赖高频词以及未能充分考虑兼类词的问题,引入词语的词性得分,改进了传统的TF-IDF公式。针对Textrank图模型的关键词提取算法无法解决等概率跳转、词义不足的问题,采用深度学习的方法训练文本的语言模型,把对微博内容的处理转化为在向量空间中的向量计算,通过计算向量之间的相似度,得到词语之间的语义相似度。然后将滑动窗口内词语的相似度和词频特征加入到Textrank的迭代公式,进行边权重优化。通过改变

3、关键词提取个数以及滑动窗口大小,来获取算法的最佳提取效果。(2)针对所建立的情感词典无法实时更新网络新词的问题,结合未识别词与正向情感词、负向情感词之间的互信息值,根据正负互信息差值来判别未识别词的情感词性。为了避免收集大量的情感词典库,采用分类性能较好的支持向量机进行旅游微博的情感分类。由于传统的词频特征无法全面反映微博的语义,引入Word2vec训练文本的语言模型。然后融合Word2vec和TF-IDF来改进词向量,利用微博句子中所有改进的词向量之和的平均值作为支持向量机的输入来进行情感分析。通过调整SVM的核函数和惩罚因子,来得到分类器的最优性能。

4、实验结果表明,边权重优化Textrank的算法能解决等概率跳转、词义不足等问题,有助于提取出频率不高但是又能突出微博主题的关键词,获得更优的关键词提取的效果。基于改进的特征融合优化SVM的算法能解决词频特征无法很好地表达文本语义的问题,有效地提高分类器的分类性能。关键词:旅游微博;关键词提取;情感分析;词向量;边权重优化;特征融合IABSTRACTWiththerapiddevelopmentofnaturallanguageprocessing,keywordextractionandsentimentanalysishavebeenhotfield.

5、Theresearchesofkeywordextractionandsentimentanalysisarehelpfultograspthethemesoftextsandprovidethecorrespondingdecision-making.Therefore,therelatedresearcheshaveveryimportanttheoreticalsignificancesandsocialvalues.AsaChinesesocialplatform,SinaWeibohasanimportantimpactonpeople'sda

6、ilylife.TourismweibopublishedonSinaWeibohasthecharacteristicsofconcision,outstandingthemes,immediateness,interactivityanddynamism.Tourismweiboisastheresearchobjectandthealgorithmsofkeywordextractionandsentimentanalysisarestudied.Themaincontentsareasfollows:(1)Regardingtheproblems

7、thatthetraditionalTF-IDFrelyheavilyonhighfrequencywordsandcannotfullyconsiderthemulti-categorywords,thescoresofpart-of-speechareintroducedandtraditionalTF-IDFformulaisimproved.RegardingthefactthatclassicTextrankcannotsolvetheproblemsofequalprobabilityjumpingandthelackofwordmeanin

8、gs,deeplearning'smethodhasbeenadoptedtot

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。