欢迎来到天天文库
浏览记录
ID:38865371
大小:1.07 MB
页数:3页
时间:2019-06-20
《深度学习技术下的中文微博情感的分析与研究_刘艳梅》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2016年软件2016,Vol.37,No.5第37卷第5期COMPUTERENGINEERING&SOFTWARE国际IT传媒品牌深度学习技术下的中文微博情感的分析与研究刘艳梅(武汉设计工程学院信息工程学院,武汉430205)摘要:微博情感分析主要在于发现用户对某种热点事件的观点和态度,已有的研究,诸如SVM、CRF等传统算法,付出了昂贵的手工标注的代价。本文在研究情感分析、深度学习等技术的基础上,提出了一种新的技术方案:即通过网络爬虫技术从微博上抓取部分数据,经过词料预处理后,作为卷积神经网络的输入样本,并基于SVM/RNN构建分类器。最后在给定的测试集中判断每个句子的
2、情感倾向性,实验结果良好。关键词:微博情感分析;深度学习;卷积神经网络;分类器中图分类号:TP181文献标识码:ADOI:10.3969/j.issn.1003-6970.2016.05.006本文著录格式:刘艳梅.深度学习技术下的中文微博情感的分析与研究[J].软件,2016,37(5):2224ResearchandAnalysisofChineseMicro-blogSentimentunderDeepLearningLIUYan-mei(WuhanInstituteofDesignandSciences,Wuhan430205,China)【Abstract】:M
3、icro-blogsentimentanalysisistofindtheuser’sviewforsomehotevents.Theexistingresearchescostexpensivemanualannotation,suchasSVM,CRFandothertraditionalalgorithms.Thispaperpurposedanewtechniquesolutionbysentimentanalysisanddeeplearning.Namely,itcrawledsomedatafromMicro-blog,andthenaftercorpuspr
4、etreatment,asinputsampleofCNN,itbuiltclassifierbasedonSVM/RNN.Finally,thepaperjudgedemotionalori-entationsofeachsentence.Verifiedbyexample,validationresultisgood.【Keywords】:Micro-blogsentimentanalysis;Deeplearning;CNN(ConvolutionalNeuralNetwork);Classifier0引言督学习、无监督学习和半监督学习。而当前大多数基于有监督学习的研
5、究取得了不错的成绩。但有监随着移动互联网的发展,社交应用也进入到新督学习依赖于大量人工标注的数据,而且由于人的的阶段,借助LBS、兴趣、通讯录等功能,以解决主观理解不同,样本标注的标注很难确立,也很难用户沟通、分享、服务、娱乐等为立足点,满足用保证标注样本的质量。相反的,无监督学习不需要户不同场景下需求。根据CNNIC对当前社交应用市[3,4]人工标注数据训练模型,降低标注的代价。场的分析,在综合社交领域,典型应用-微博,网民使用率33.5%。主要满足用户对兴趣信息的需求,1深度学习简介是用户获取和分享“新闻热点”、“兴趣内容”、“专业知识”、“舆论导向”的重要平台。同时,
6、在帮助深度学习的概念最早由多伦多大学的G.E.Hinton用户基于共同兴趣拓展社交关系方面也起到了积极等人于2006年提出,指基于样本数据通过一定的训的作用[1]。练方法得到包含多个层级的深度网络结构的机器学情感分析,也称为观点挖掘,指的是分析说话习过程。深度神经网络分为以下3类(如图1所示)。者在传达信息时所隐含的情况状态、态度、意见进深度学习有三个主要环节:第一,用无监督方[2,5]式训练系统,即用大量未标注样本逐层提炼,无导行判断或者评估。目前,情感分析的主要研究方法还是一些基于机器学习的传统算法,例如,SVM、向自动形成特征。这一过程类似于人通过眼、耳等信息熵、CR
7、F等。这些方法归纳起来有3类:有监感官系统接收图像、声音信息后,自动在脑中形成基金项目:湖北省教育厅研究项目(编号:2013455),华中农业大学楚天学院项目(编号:201301、201303)作者简介:刘艳梅(1981,讲师,硕士研究生,研究方向:计算机应用刘艳梅:深度学习技术下的中文微博情感的分析与研究不同类别信息印象。第二,调准。这一过程用一些己标注样本对特征分类,并根据分类结果进一步调整系统参数,优化系统在区分不同类别信息上的性能。第三,测试,用系统未见识过的样本数据检验系统学习效果,例如样本正确分类
此文档下载收益归作者所有