优捷信达技术博客.doc

优捷信达技术博客.doc

ID:51917887

大小:67.50 KB

页数:5页

时间:2020-03-19

优捷信达技术博客.doc_第1页
优捷信达技术博客.doc_第2页
优捷信达技术博客.doc_第3页
优捷信达技术博客.doc_第4页
优捷信达技术博客.doc_第5页
资源描述:

《优捷信达技术博客.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于语义特征的网络舆情正负面监测administrator

2、07八月,201208:24文章作者:优捷信达研究员AnnieQi在上一篇《网络舆情正负面信息识别的方法》文章屮,结合本人在优捷信达科技研究工作,为您详细介绍情感分析屮与舆情正负血密切相关的“极性分类"。本文将延续上一篇文章的主题,详细描述具体的正负面辨别方式,并分析优缺点,帮助您了解市场上流行“舆情监测”,”口碑监测“,“消费者调研”等信息处理系统的工作原理。首先I叫顾上一章的介绍,网络评价和信息的正负面识别,包括优捷信达科技在内的技术领先型舆情口碑监测公司,都是通过极性分

3、类(polarityclassification)这一步骤来实现,极性分类首先将具有情感倾向的相关词语提取出来,叫做“特征提取”(featureextraction)o简单来说,如何通过计算机判别正负面,就是通过提取句了屮的正负面词语,通过词语的正负血来判断文章的正负面倾向。到目前为止,基于优捷信达科技的研究调杳,目前业内主要特征提取技术分别是“基于语义'和“基于词出现及频率哂种模式。木文将重点讨论基于语义特征的模式,下一章将介绍基于词的出现及其频率的模式,并分别讨论它们的优缺点。基于语义特征的特征提取模式,也就是根据词语表达的意思,

4、即根据字面意思来辨析句了所表达的正负面。这一方式有三个重要的代表性方法。分别是:人丁•建构情感词条的方法、PMI-IR算法(PMI-IRAlgorithm)和同义词与反义词方法。1.人工建构情感词条TetsuyaNasukawa和JeongheeYi在2003年提出的特征提取的方法就是基于语义分析方法的原型Z—。他们通过识别特定主题词和语气表达式之间的语义关系进行倾向性分析,采用白然语言处理技术分析特定主题和语气词Z间的语义关联。具体方法如下:第一步,他们首先手动构建了一个有3513个词条的情感词汇表。字典中毎个词语都包括情感,词性标

5、记和规范形式的情感词,比如(好,词性标记为正面,恶劣,词性标记为负瓯)。如果收录的情感词是一个动词,只要通过这一动词产生了情感,该动词的宾语也将会被收录(比如:优捷信达科技致力于以高科技产品满足客户需求。如果“致力于”作为一个收录的情感词并标记为正面,那么它所描述的“以高科技产品满足客户需求”就被认定为正面信息)。第二步,他们使用了一些计算机工具(两个PoS-tags和一个句子结构解析器),可以识别短语边界和局部依赖性,比如:针对“我喜欢打球!"这个句子,通过T具可以识别短语边界为“打球",“喜欢打球“,"我喜欢打球“,并且还可以分析

6、出“打"的对彖是“球”,”喜欢''的对彖是"打球”这种短语Z间的依赖关系,针对每一个付了他们只提取一个代表性的情感词,当一个句子屮存在多个情感词时,这种方式就不够好用。第三步,将提取出来的情感词,放到Z前人工构建的情感词典里检索,找到情感词典中对应的词语以及它的正负面极性。这样就完成了一个文木片段的情感极性判断。通过以上方法,他们实验的准确率(精度)大约是75%・95%,但相对检索内容的杳全率(召冋率)较低只有20%・25%0也就是说,实验检索结果整体是非常准确的,但是也有大量的数据没有抓取到,杳全率较低。因为有来自于手工设定的情感词

7、汇表,这种算法可以分析形容词、副词、名词和动词的情感极性。此外,他们还能理解否定句和被动句。而且,这种方法不仅可以分析情感正负面,还可以提取出正负面所对应的主题。然而,这个系统也有儿个校为明显的弱点。首先,这个系统需要大量的人工操作,当需要针对海量数据进行分析时,人工设定词库的T作量将会非常巨大。第二,尽管它可以解决否定句和被动句,但是在处理更复杂的句法结构,比如双重否定句时,就有可能发生误判。第三,因为杏全率较低,该系统不能有效地区分哪些是对客观事物的描述,哪些是主观情感的抒发。导致杏全率低的原因是系统的情感词库是由人工输入,而让人

8、丁输入全部的情感词是一件不太可能的事情。2・PMI-IR算法(PMI-IRAlgorithm)PMI-IR算法是特尼在2002年设计的,与第一种人工建构情感词条的方法相比,它们特征选取方法基木相同,但是它不涉及太多人丁手动工作,并且这一方法可以针对整个篇章进行分类,而不是仅仅针对一小段文字,來提取相关主题的正负面信息。特尼将PMI-IR算法川于测定词汇的正负面倾向性。他评估了410篇评论,获得了74%的平均精度。他的算法的基木思路是,把情感极性待定的主观词提取出来,拿它和两个情感极性计算“词条距离”。一篇文章最终被归类为哪个情感极性,

9、取决于该文章里面所有形容词性短语和副词性短语的平均“情感倾向分值SO"(semanticorientation)o具体步骤如下:首先,特尼对每篇评论文章,都进行词性标注。然丿订匹配两个相邻词的词性标签,如果他们的词性标签

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。