欢迎来到天天文库
浏览记录
ID:37829565
大小:485.35 KB
页数:7页
时间:2019-06-01
《中文文本情感倾向性分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中文文本情感倾向性分析黄萱菁赵军过程相当缓慢。由此可见,这一过程的自动引言化,具有很好的商业应用前景。文本情感倾向性分析属于计算语言学大约在两年半前,《新华网》、《环球时的范畴。在计算语言学以及相关领域,研究报》等大众媒体纷纷转载了英国《新科学家》人员以前普遍关注的是客观性信息的分析杂志的一则报道,英国Corpora软件公司开和提取,对主观性信息分析与提取的研究尚发了一套名叫“感情色彩(Sentiment)”的软处于起步阶段,存在很多问题需要进行全面1件,它能判断报纸刊登的文章对一个政党的探索。这项研究涉及
2、到计算语言学、人工的政策是持肯定态度还是否定态度、或者网智能、机器学习、信息检索、数据挖掘等多上评论文章是称赞还是贬低一种产品,以帮方面研究基础,因此文本情感倾向性分析也助政府和一些大公司全面了解公众舆论对具有重要的学术研究价值。他们的看法。总体来看,情感倾向分析的研究大致可以分成词语情感倾向性分析、句子情感倾向性分析、篇章情感倾向性研究、海量信息的整体倾向性预测四个研究层次。接下来将介绍在各个层次所取得的研究进展,之后是情感倾向性分析标准语料库的建设和系统评测,最后是本文的结论。这则报道之所以引起了舆论的
3、广泛关注,是因为它介绍的是一个非常新颖而又很词语情感倾向性分析有价值的研究方向。所谓文本情感倾向性分析,就是对说话人的态度(或称观点、情感)进行分析,也就是对文本中的主观性信息进对词语的情感倾向研究是文本情感倾行分析。由于立场、出发点、个人状况和偏向分析的前提。具有情感倾向的词语以名好的不同,民众对生活中各种对象和事件所词、动词、形容词和副词为主,也包括人名、表达出的信念、态度、意见和情绪的倾向性机构名、产品名、事件名等命名实体。其中,必然存在很大的差异。这种差异尤其体现在除部分词语的褒贬性(或称为极性,通
4、常分论坛、博客等反映草根观点的网络媒体上。为褒义、贬义和中性三种)可以通过查词典2长期以来,要了解关于某个问题的报道的方式得到之外,其余词语的极性都无法是正面的还是反面的,是消极的还是中立直接获得。而词语的情感倾向除了极性之的,往往需要求助于调查公司。这些公司的外,还包括倾向性的强烈程度。例如,“谴员工仔细阅读有关某个机构、个人、事件或责”的强度就远远超过了“批评”和“指责”,问题的所有文字,然后就这些评论的态度做而这种强度是很难由词典编撰者用人工的出反馈。这不仅耗费大量人力和财力,而且方式量化的。另外,词
5、语的极性往往取决于特定的上下文环境,例如,“骄傲”在表示12http://www.corporasoftware.com/products/sentiment.a例如,GeneralInquirer[Stone,1966],知网:spxheep://www.keenage.com自豪概念时,是褒义词,而在表示自满概念A的页面数)和总的索引页面数的比值,就时,则是贬义词。可以认为是A的概率。要计算A和B的共词语情感倾向分析包括对词语极性、强现概率,只要把A和B同时送给搜索引擎度和上下文模式的分析。其分析结果甚
6、至可就可以了。这种方法同样存在着对种子集的以写入到语义词典中,如北京大学计算语言依赖性比较强的问题,而且噪声比较大。学研究所基于人民日报基本标注语料库的③基于人工标注语料库的学习方法:首真实文本实例进行统计归纳,从而得到词语先对情感倾向分析语料库进行手工标注。标的情感倾向,然后在现代汉语语法信息词典注的级别包括文档集的标注(即只判断文档中形式化[王治敏2004]。词语情感倾向分析的情感倾向性)、短语级标注和分句级标注。目前主要有三种方法:在这些语料的基础上,利用词语的共现关①由已有的电子词典或词语知识库扩系
7、、搭配关系或者语义关系,以判断词语的展生成情感倾向词典:英文词语情感倾向信情感倾向性。这种方法需要大量的人工标注3息的获取主要是在WordNet和General语料库,典型的工作如Wiebe利用词语的搭Inquirer的基础上进行的配模式发现在主观性文本中的倾向性词语[Hatzivassiloglou,1997][Wilson2005];而中及其搭配关系[Wiebe,2001]。文词语情感倾向信息的获取依据的主要有不可不提的是香港城市大学语言资讯HowNet[朱嫣岚2006]。这种方法的主要思科学中心在LI
8、VAC共时语料库上进行的名想是:给定一组已知极性的词语集合作为种人信誉分析研究。他们选择泛华语地区有代子,对于一个情感倾向未知的新词,在电子表性的中文词典中找到与该词语义相近、并且在种子集媒体,对相应合中出现的若干个词,根据这几个种子词的的新闻报道极性,对未知词的情感倾向进行推断。这种进行深层次方法对种子词数量的依赖比较明显。的人工标注,②无监督机器学习的方法:这种方法与对并在该语第①种方法类似,也是假设已经有一
此文档下载收益归作者所有