面向微博文本的分词及情感分析研究

面向微博文本的分词及情感分析研究

ID:35102106

大小:2.13 MB

页数:49页

时间:2019-03-17

面向微博文本的分词及情感分析研究_第1页
面向微博文本的分词及情感分析研究_第2页
面向微博文本的分词及情感分析研究_第3页
面向微博文本的分词及情感分析研究_第4页
面向微博文本的分词及情感分析研究_第5页
资源描述:

《面向微博文本的分词及情感分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码10459学号或申请号201312172071密级硕士学位论文面向微博文本的分词及情感分析研究作者姓名:石金铭导师姓名:昝红英学科门类:工学专业名称:软件工程培养院系:信息工程学院完成时间:2016年5月AthesissubmittedtoZhengzhouUniversityforthedegreeofMasterResearchonChineseWordSegmentationandSentimentAnalysisforMicro-blogTextByJinmingShiSupervisor:Prof.HongyingZanSof

2、twareEngineeringCollegeofInformationandEngineeringMay2016原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。学位论文作者:日期:年月日学位论文使用授权声明本人在导师指导下完成的论文及相关的职务作品,知识产权归属郑州大学。根据郑州大学有关保留、使用学位论文的规定,同意学校保留或

3、向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权郑州大学可以将本学位论文的全部或部分编入有关数据库进行检索,可以采用影印、缩印或者其他复制手段保存论文和汇编本学位论文。本人离校后发表、使用学位论文或与该学位论文直接相关的学术论文或成果时,第一署名单位仍然为郑州大学。保密论文在解密后应遵守此规定。学位论文作者:日期:年月日摘要摘要伴随着移动互联时代的到来,以微博为代表的社交网络媒体,得到了研究者们极大的关注,由于微博的短文本性及随意性,为很多自然语言处理任务带来了新的挑战。情感分类是自然语言处理领域中热门研究之一,微博

4、等网络文本同样给情感分类提出了挑战,目前情感分类的主流方法是人工设计特征,输入到机器学习分类器中,该类方法准确率较高,但需要通过对数据的观察去人工的设计特征,无法应用到真实环境中。因此,本文利用了基于表示学习的情感分类方法自动生成微博句子的向量,把该向量看做特征进行情感分析,该方法可以避免人工设计特征。由于该方法通过组合词的语义向量来获取句子的语义向量,因此分词结果的好坏会直接影响后续处理的表现,考虑到主流的分词方法在对微博等网络文本进行处理时分词结果不佳,本文首先提出了一种针对微博文本的中文分词算法。本文在对当前主流的分词算法进行简单介绍与分

5、析之后,提出了一种基于表示学习的中文微博分词算法。该算法首先无监督的从语料中自动的学习出包含语义信息的字向量,然后以获取到的向量作为特征输入到序列标注模型中,对微博待分词文本进行序列标注,同时针对微博文本的特性,添加了后处理步骤。然后将该分词方法应用到情感分析任务中,通过训练卷积神经网络,组合词向量获取到句子的向量,并将其视为特征直接进行情感分类。本文在对已有相关工作进行认真分析的基础上,主要进行了以下研究工作:(1)设计了一种基于表示学习的分词方法,利用表示学习的方法无监督的从语料中学习出字向量,利用该向量作为特征进行序列标注。针对微博的特点

6、,添加了一些后处理步骤。(2)针对获取到的字向量在条件随机场中的应用,对特征模板进行设计。(3)基于卷积神经网络的句向量生成。通过构建一个卷积神经网络,将词语的语义信息组合,获取句子的向量表示,以便用到情感分类任务中。最后,本文将上述分词方法及情感分析方法分别应用到NLP&CC和COAE公开的数据集上进行实验,其中,本文提出的分词方法在处理微博文本时优于传统方法,具有可行性。基于表示学习的情感分析方法效果有待提高,但其避免了人工设计特征。关键词:表示学习;情感分析;分词;卷积神经网络IAbstractAbstractAsthetimeofmob

7、ileinternetiscoming,astherepresentativeofsocialmedia,micro-blog,hasattractedgreatattention.Thebrevityandarbitraryofsocialmediatextposednewchallengestomanynaturallanguageprocessingtasks.Sentimentclassificationformicro-blogisahotissueinthefieldofnaturallanguageprocessinginrece

8、ntyears.Thepresentmainstreamframeworkforsentimentclassificationis1.designso

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。