欢迎来到天天文库
浏览记录
ID:36656573
大小:646.63 KB
页数:6页
时间:2019-05-13
《基于多粒度计算和多准则融合的情感分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、ISSN1000—0055清华大学学报(自然科学版)2015年第55卷第5期3/18JTsinghuaUniv(Sci&Techno1),2015,Vo1.55,No.5497—5O2基于多粒度计算和多准则融合的情感分类王丙坤,黄永峰,李星(清华大学电子工程系,北京100084)摘要:随着在线用户生成内容的激增,无监督情感分类方随着评论和社交媒体的飞速发展,用户生成内法有着广泛应用前景。现有基于情感词的无监督情感分类容出现爆炸式增加。如何有效挖掘用户生成内容中方法没有考虑句子类型和句间关系对情感分类的影响,分类的观点信息,对
2、自然语言处理和Web挖掘提出了效果较差;基于自学习的无监督情感分类方法在生成伪标新挑战]。因此,网络文本情感分类技术受到了越注数据集时,又会引入较多错误。针对上述问题,该文提出来越多的研究J。了一种基于多粒度计算和多准则融合的无监督情感分类方现有情感分类方法主要分为3类:有监督、无法该方法通过多粒度计算,提高现有基于情感词的无监监督和半监督方法_3]。有监督方法主要采用传统文督情感分类精度;同时通过多准则融合来减少伪标注数据错误率。在3个真实中文数据集上的实验结果表明:与现本分类器实现情感分类]。与传统文本分类方法不有无监督
3、情感分类方法相比,该方法平均提高了6.5的分同,情感分类具有较强的领域依赖性[c]。为获得较类精度。好性能,有监督方法需要大量人工标注训练数据,关键词:情感分类;无监督方法;多粒度计算;多准则融合同时,要求测试数据和训练数据的领域分布尽量一中图分类号:TP391.1文献标志码:A致]。为每个领域标注大量训练数据是一项费时、文章编号:1000—0054(2015)05—0497-06费力、消耗大的工作,已成为有监督方法应用的主要瓶颈。为解决人工标注大量数据的问题,出现了只需少量标注数据的半监督方法和不需要标注数据的无监督方法。
4、在半监督方法中,现有研究成果主要以少量人工标注数据为初始训练集,训练情感分类器;然后基于自学习框架,通过选择可信度高的数据加入初始训练集,迭代训练分类器,最终实现情感分类书]。现有无监督方法主要有2类:一是基于种子情感词扩展或情感词典实现情感分类;二是以基于情感词的无监督方法为基础,采用自学习框架,生成伪标注数据集,训练自学习情感分类器,实现情感分类。前者很少考虑句子类型和句间关系对情感分类的影响口”;后者在生成伪标注数据集时,会引入较多错误标注数据。收稿日期:2O14—12—25基金项目:国家“八六三”高技术项目(2012
5、AA011004);清华大学自主科研计划项目(20111081023)作者简介:王丙坤(1977一),男(汉),河南,博士研究生。通信作者:黄永峰,教授,E—mail:yfhuang@tsinghua.edu.e13王丙坤,等:基于多粒度计算和多准则融合的情感分类4992)以动态情感词W为中心,使用长度为5的表3不同句子类型的处理方法滑动窗向前寻找最近的情感词W。句子类型处理方法3)依据最近情感词的情感强度si(W),计陈述句直接计算句子的情感强度算动态情感词W的情感强度。疑问句对句子的情感强度取反si(叫)一sign(si
6、(叫⋯))si。iual(叫).感叹句对句子的情感强度加权,加权系数为2其中,依据句子间的连接副词,把句间关系分为转折f1,si(w⋯)≥0;和总结这2种关系。对不同句间关系,采用不同的gesI一1—1,si(ZUnearest)<0.处理策略,如表4所示。2.2情感短语情感强度计算方法表4句子间关系的处理方法以候选情感词为中心,使用一个固定长度的滑句子关系处理方法动窗口和语法规则构建情感短语结构。依据滑动窗口内副词的修饰情况,计算情感短语的情感强度。转折关系嘉震嚣不相具体方法是:以情感词为中心,采用长度为5的滑总结关系对总
7、结句子的情感强度加权,加权系数为2。动窗口来限定情感短语的距离,以具体规则发现情基于句子情感强度,把评论r中全部句子的感短语。具体规则如表1所示。情感强度相加,得到评论的情感强度si(r)。表1情感短语的构造规则情感词类型情感短语构造规则3多准则融合方法形容词副词+形容词+副词现有基于自学习框架的无监督方法主要采用可动词副词+动词+副词信度准则选取伪标注评论,只考虑了伪标注评论的正确性,没有考虑伪标注评论的代表性,造成在自以si(w)为基准,考虑情感短语中副词对情感学习中会引入较多错误标注数据。为此,本文提出词情感强度的影响
8、,计算情感短语P的情感强度了多准则融合方法。通过情感类别可信度准则和情si(p女)。感类别代表度准则的融合,选取正确性高且具有代si(P)一f(class(adv))si(叫),表性的评论生成伪标注评论,从而减少伪标注数据f(clas㈤一lass(advna;的错误率,提升自学习情感分类器
此文档下载收益归作者所有