文本情感分析论文总结.docx

文本情感分析论文总结.docx

ID:25609898

大小:268.99 KB

页数:6页

时间:2018-11-21

文本情感分析论文总结.docx_第1页
文本情感分析论文总结.docx_第2页
文本情感分析论文总结.docx_第3页
文本情感分析论文总结.docx_第4页
文本情感分析论文总结.docx_第5页
资源描述:

《文本情感分析论文总结.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、文本情感分析赵妍妍,秦兵,刘挺-软件学报,2010-jos.org.cn按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。一、情感信息抽取(评价词语、评价对象、观点持有者)1.评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。2.评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。3.

2、观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。4.组合评价单元的抽取:主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断)评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。二、情感信息分类1.主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于分类

3、器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图);2.主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语特征和词性特征、位置特征、评价词特征)。三、情感信息的检索与归纳1.情感信息检索2.情感信息归纳基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。基于新闻评论的文摘四、情感分析的评测与资源1

4、.情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析),国内的COAE。2.情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料,Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。3.词典资源:GI(generalinquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英文),HowNet评价词词典(简体中文、英文)问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情

5、感标签的情感文摘的深入研究;基于层次结构的多策略中文微博情感分析和特征抽取谢丽星,周明,孙茂松-中文信息学报,2012-nlp.csai.tsinghua.edu.cn三种情感分析方法的研究:表情符号的规则方法、情感词典的规则方法、基于SVM的层次结构的多策略方法。主题无关的情感分析:不关心情感极性所描述的对象,有基于词典的方法、有监督的机器学习和无监督的方法。主题相关的情感分析:基于规则的方法;基于特征(属性)的方法。主客观分类特征、极性分类特征:链接、表情、情感词典、情感短语、上下文微博消息句子构成特征:首句、尾句情感极性

6、,正负中情感句数主题相关的句子筛选:包含主题词的句子、零指代情感、主题词相邻的一定范围内。本文中主题无关的最佳组合方法:单句用一步三分类,特征为表情+词典+短语+上下文,整体为句子组成SVM,特征为首句尾句极性+三种情感极性句子数。主题相关的特征(本文提供主题词来获取数据):测试三种主题相关句子筛选方法。本文后续工作:构建网络用语词典;深入研究主题相关的特征;构建图模型。Cross-LingualMixtureModelforSentimentClassificationXMeng,FWei,XLiu,MZhou,GXu…-P

7、roceedingsofthe50th…,2012-dl.acm.org问题:英语的标记数据比其他语言多,很多现存的方法都是直接用机器翻译将源语言翻译为目标语言,以获取标记数据,但是翻译后的词典覆盖率有限,且翻译本身的准确性限制。解决:提出跨语言混合模型,利用平行语料库,可以提高词典覆盖率,通过在飞标注的平行语料中学习情感词,同时在源语言与目标语言间传递极性标签信息。思路:把平行语料库中的未标注数据的极性当做隐变量,而语料库中的可观察的词语当做是基于隐变量的词语生成分布来生成的。给定一个平行语料库,通过最大化生成这个语料库的似

8、然值来fitCLMM模型,通过最大化似然值,CLMM可以估计没在标记数据中出现但是在平行语料中出现的词语的产生概率,进而扩展词典。另外,CLMM还能利用源语言和目标语言中的词语来判断平行语料中句子的极性。Cross-DomainCo-ExtractionofSentiment

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。