微博观点句识别的话题影响研究

微博观点句识别的话题影响研究

ID:28075587

大小:102.04 KB

页数:19页

时间:2018-12-07

微博观点句识别的话题影响研究_第1页
微博观点句识别的话题影响研究_第2页
微博观点句识别的话题影响研究_第3页
微博观点句识别的话题影响研究_第4页
微博观点句识别的话题影响研究_第5页
资源描述:

《微博观点句识别的话题影响研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、微博观点句识别的话题影响研究摘要:为了从海量的网络信息中迅速准确地获取评价信息,观点句识别已经成了自然语言处理的一个研究热点。现在观点句识别系统大都是基于机器学习的方法,一般使用机器学习的方法来进行分类会受到领域差异性影响。针对这个问题,该文对微博观点句识别系统是否会受到微博话题影响做了经验性研究,同时为了弥补训练数据的不足,该文通过规则方法自动标注网络数据进行了训练集的扩充。实验结果表明,微博话题间存在差异,进行分话题模型训练可以提升微博观点句识别系统的性能。关键词:观点句识别;机器学习;话题;规则分类号:TP18文献

2、标识码:A文章编号:1009-3044(2014)01-0123-051概述随着网络信息量的日益增长,人们想要从巨大的冗余信息中准确、迅速地获取对一个事物或对象的评价,这就需要快速的识别出语段中的观点句。目前,观点句识别已经成为自然语言处理领域中的一个研究热点,对于观点句这种不受语言表迗约束的非规范文本,很难使用规则方法将观点句全面地识别出来,机器学习的方法在这方面体现出了一定优势,所以现今的观点句识别系统大多是基于机器学习的方法来进行二元分类[1]。但是,缺乏标注训练数据和话题间差异性一直都是机器学习分类的研究难点。基

3、于机器学习的观点句识别系统也同样存在着这样的问题,网络上并没有这种大量用于观点句识别的标注数据集,若要进行人工标注,这需要花费大量的人力和物力。而且由于不同话题间的差异性,使用同一个分类器对不同话题去进行观点句识别,识别效果会有所影响。针对这些问题,我们首先通过一些人工规则对网络上获取的资源进行自动标注,然后将这部分自动标注的语料加入到原有的少量训练语料中,以扩充训练语料,再进行分类器分类,并做了一些常用分类器的性能比较。同时为了验证话题会影响观点句的识别,我们针对话题做了经验研究,对比了通用分类模型和分话题分类模型的性

4、能。该文中的实验使用NLP&CC2012中文微博情感分析评测中的数据集,该数据集来自于20个微博话题,实验中定义的观点句只限定于对特定事物或对象的评价,不包括内心自我情感、意愿或心情。实验结果表明,加入基于规则的自动标注数据,对机器学习分类模型的训练是有帮助的,微博话题间也存在着差异性,分话题模型比通用模型有更好的效果。文章其他部分安排如下:第二节将进行相关工作的介绍,对观点句识别进行概述,介绍观点句的概念和观点句识别的研究现状;第三节将介绍规则与机器学习相结合的观点句识别方法;第四节,针对微博话题差异性做了经验研究,话

5、题会影响观点句的识别;第五节给出在NLP&CC2012中文微博情感分析评测数据集上的实验数据,并进行分析讨论;第六节是进行总结和展望2相关工作观点句,即在表达的过程中带有某种情感和观点的句子,它是对特定事物或对象的评价,这种观点可以是作者本人的、引用于他人的、或是某群体、组织发表的[1]。国外对观点句的研究起步较早,较有代表性的工作有:Wiebe[2]选择某些词类(代词、形容词、序数词、情态动词和副词)、标点和句子位置作为特征,实现对观点句识别。Riloff[3]等人利用boot-strapping算法学习得到主观性名词

6、,单独使用主观性名词为特征,采用朴素贝叶斯分类器对观点句识别。Wiebe和Riloff[4]他们依靠先前研究中确定的主观特征,分别建立了主观分类器和客观分类器,自动从未标注的文本中获得大量主观句和客观句,再从这些句子中得到更多主观性词语搭配,再用准确性很高的词语搭配更新原始的主观特征。Yu和Hatzivassiloglou[5]利用相似性方法、朴素贝叶斯分类和多重朴素贝叶斯分类等三种统计方法进行观点句识别研究。近几年,由于微博的兴起,针对微博数据,AlexanderPak等人[6]选取n-gram和微博中的词性标注作为特

7、征,利用朴素贝叶斯分类器对微博中的观点句进行识别研究,LucianoBarbosa等人[7]采用微博中的词性信息、词本身的主观性、词的情感极性以及否定词作为特征,训练分类器,对微博主客观性进行分类。D.Davidiv等人[8]提取Twitter中的标签和表情符号作为训练集,训练了一个类似KNN的分类器,对微博情感极性进行分类。国内较早开始该工作的是姚天令和彭思威[9]使用了机器学习的方法进行分类识别。叶强等[10]提出了一种根据连续双词词类组合模式(2-P0S)自动判断句子主观性程度的方法。王根和赵军[11]提出了一种基

8、于多重冗余标记的CRFs进行观点句识别。蒙新泛和王厚峰[12]通过对比试验,分析了上下文信息对于主客观分类的影响。张博[9]使用模块串行的方法进行观点句识别。宋乐等人[13]在2009年的第二届C0AE评测中文观点句抽取的任务中使用了一种类似最小图个的方法。在2011年第三届⑶AE评测中,徐瑞峰等人[14]提出一种基

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。