欢迎来到天天文库
浏览记录
ID:33615311
大小:5.31 MB
页数:55页
时间:2019-02-27
《基于occ模型的文本情感识别方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、太原理工大学硕士研究生学位论文发展和变迁的,每隔一段时问都会有一些新词汇扩充进来,同样也会有一些词汇因长期不用而过时,这样在建模的过程中就需要引入一套自学习机制,使模型不断地自我更新和完善。1.2国内外研究热点及现状今天大多数计算机使用者所面对的主要是文本,因此,寻求合适的方法来识别文本中潜在的情感信息,己成为人机对话的关键部分12J。目前各类文本情感识别的方法主要有关键字识别、词汇关联、基于统计的自然语言处理方法和基于常识库的方法及其他方0士【3】【4】【5】1.‘^o关键词识别:这类方法最为简单,因其经济性和易使用性也最为常用。它被广泛地
2、用于自然语言理解过程中。其原理是:首先,在系统中事先存放大量包含某些关键词的模式,每个模式都与一个或多个解释(又叫响应式)相对应。系统将当前输入句子同这些模式逐个匹配,一旦匹配成功便立即得到了这个句子的解释,而不再考虑句子中那些不属于关键词的成份对句子意义会有什么影响。所以,关键词识别是一种近似匹配技术,它的最大优点是允许输入的句子不一定要遵循规范的语法。但这种分析技术的不精确性也正是这种方法的主要弱点,往往会导致错误的分析。在文本情感识别中使用此技术主要是通过获取文中不含歧义的情感关键词,如:“distressed”、“enraged”、“
3、happy"等来识别文本中情感。例如:Elliott’SAffectiveReaSonerl6】覆盖了198个情感关键字,外加表示情感强度的词(extremely,somewhat,enraged)及众多的提示情感线索的词组。如上所述关键词识别方法对于识别文本中情感有一定的效果,但是其缺陷是显而易见的:1、当句子中有否定词时不能很好的给于识别。2、它只是依靠句子表面特征对文本进行情感分类,而实际上,很多句子都是由其潜在的含义来表达情感信息而不是几个情感修饰词。如:“Maryborrowedmyruleryestodayhowevershebr
4、okeitup.”上句表达了强烈的负性情感倾向,但句子中不含情感关键词,所以,此类方法只适用于句中包含明显情感关键词的情况。词汇关联:这类方法不再停留在简单的关键词识别的层次上,而是对句子中的词汇赋一个情感倾向概率值。如对“caraccident”和“hurtbyaccident”中的“accident”赋予75%的负性情感倾向值。这类方法的缺点是:当输入为“Iavoidanaccident."会错误地赋负性情感值。此外,此类方法的情感倾向概率与领域有关,因而也就缩小了方法2太原理工大学硕士研究生学位论文的使用范围。基于统计的自然语言处理方法
5、:通过向机器学习系统中输入大量的文本,它不仅可以获取情感关键词,还可以获取标点符号等信息。基于统计的方法主要有LSA,这种方法在文本情感识别领域中很常用,且已被用于Go—ertzel’SWebmind【7】的研究中,但此方法只有在输入长文本时才有效。Hand—craftedmodels:如Dyer’SDAYDREAMER[81。这类方法需要对文本中的含义做深入地分析和理解,因此难以实现。基于大规模常识库的方法:使用常识库对文本进行情感分类。如:HugoLiu’SAModelofTextualAffectSensingusingReal—W.0
6、rldKnowledge【9】。他根据大规模常识库中的知识把输入的句子分为六种基本情感类型。虽然此方法己优于前几种文本情感识别方法,但因其没有融入情感的认知识别过程,仅仅凭借匹配知识库的部分常识对文本进行情感分类,对情感的分析不够全面。另外近几年来我国在文本情感识别领域也做了相关的研究:链英等【1川将情感计算引入到汉语的机器理解中,在己有的汉语机器理解研究的基础::上,采用多重松弛迭代计算方法,对汉语情感意义的标注问题进行了研究,通过语境信息的和用,构建了一个实验性系统并取得了较准确的词语情感标注。嘲熠等【¨】提出了一种基于语言建模的文本情感
7、分类的方法。它是将文本的情感倾向标记为“赞扬”或“批评”,为此提出了从训练数据中分别估计出代表“赞扬”和“批评”两种情感倾向的语言模型,然后通过比较测试文本自身的语言模型和这两种训练好的情感绪型之间的Kullback.Leibler距离,分类测试文本的思路。朱嫣岚等【垃1提出基于HowNet的词汇语义倾向计算,提出了两种词汇语义倾向性计算的方法,基于语义相似度的方法和基于语义相关场的方法,从而分析词汇的语义倾向。徐琳宏,林鸿飞,杨志豪等【131提出基于语义理解的文本倾向性识别机制。其通过首先计算词汇与知网中已标注褒贬性的词汇间的相似度,获取词
8、汇的倾向性,再选择倾向性明显的词汇作为特征值,用SVM分类器分析文本的褒贬性,最后采用否定规则匹配文本中的语义否定的策略提高分类效果,同时处理程度副词附近的褒义词和
此文档下载收益归作者所有