基于2-POS模型的主

基于2-POS模型的主

ID:46005710

大小:1.82 MB

页数:34页

时间:2019-11-20

基于2-POS模型的主_第1页
基于2-POS模型的主_第2页
基于2-POS模型的主_第3页
基于2-POS模型的主_第4页
基于2-POS模型的主_第5页
资源描述:

《基于2-POS模型的主》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于2-POS模型的主观句判别与基于CRFs和句法分析的中文微博情感分析许歆艺,陈豪,黄晨楼博文,李子钰,王康指导老师:刘功申,苏波上海交通大学信息内容分析技术国家工程实验室目录基于2-POS模型的主观句判别基于CRFs(ConditionalRandomFields,条件随机场)的文本情感倾向性分析基于句法分析算法的文本情感倾向性分析基于2-POS模型的主观句判别2-POS模型N-POS模型是一种基于语料库的统计语言模型。在N-POS模型中,将词按词性(Part-Of-Speech,简称为POS)分

2、类,再将语句中连续N个词性的顺序组合作为一个项,用这些项作为文本分类中的一个特征。当N取2时,即将连续两个词语的词性组合成一个模式,就是2-POS模型。例:天气很好nada2-POS:n-adad-a基于2-POS模型的主观句判别总体流程图式中,表示某一2-POS,表示某一类别,这里有两类:主观,客观,N表示训练集中主客观句的综述,A表示属于类并且包含的句子数,B表示不属于类但是包含的句子数,C表示属于类但是不包含的句子数,D表示不属于类并且不包含的句子数。计算2-POS的卡方值设置2-POS主观权重

3、计算得所有2-POS的卡方值并取其中前15个作为主观模式。使用每个选取为主观模式的2-POS的查准率作为这个2-POS的主观权重。主观模式首词尾词卡方值主观权重(查准率)查全率v-r动词代词9.4820.65400.4192a-u形容词助词8.5620.66360.3524r-d代词副词8.3490.70600.2582m-m数词数词7.1270.13720.316r-v代词动词6.5270.61280.4174r-u代词助词6.3980.72730.1750ns-n地名名词6.2790.24910.

4、1245r-a代词形容词4.6210.72320.1160d-a副词形容词4.5510.60340.3226r-r代词代词4.4730.86510.662n-m名词数词3.8880.25100.796v-u动词助词3.5690.54130.5978a-d形容词副词3.3350.74460.832v-q动词量词3.2540.75760.759d-r副词代词3.2130.79390.632选取15个2-POS作为主观模式选择主观评分阈值将文本中所有2-POS所得的主观评分加和,除以文本中2-POS的总数,

5、获得文本最终主观性评分。最终结果在选择阈值为0.0001的时候,查准率达到0.74126,查全率达到0.77196,均比较理想。微平均宏平均正确率召回率F值正确率召回率F值0.6740.8910.7680.6790.8920.764CCF自然语言处理与中文计算会议中文微博主观句识别评测结果CRFs(ConditionalRandomFields,条件随机场)CRFs简介CRFs是基于HMMs(隐式马尔可夫模型)与MEMs(最大熵模型)的基础上的改进。CRFs使用条件特征,可以对特征进行全局归一化。它在

6、给定需要标记的观察序列的条件下,计算整个标记序列的联合概率。在现实的序列标注任务中,CRFs性能往往都优于HMMs和MEMs。基于CRFs的微博情感分析流程图序列标注工作将训练集的短文本的每个词作为第一列,将短文本的情感倾向性作为标注作为第二列。每个词都标注为这个文本的类别,这样短文本就转化为一个标注后的序列,可以用于训练。测试集的短文本只需给出每个词作为第一列,第二列文本类别为空,留待预测。真的正面是正面非常正面好正面的正面想法正面值得正面进一步正面探讨正面序列标注示例特征模版的选取#Unigram

7、U00:%x[-2,0]U01:%x[-1,0]U02:%x[0,0]U03:%x[1,0]U04:%x[2,0]U05:%x[-1,0]/%x[0,0]U06:%x[0,0]/%x[1,0]...真的正面是正面非常正面>>currenttoken好正面的正面只选择U05作为特征模版与选择所有作为特征模版准确率相差很小,为避免特征空间膨胀,仅选择U05作为特征模版。最终结果结论:链式CRFs的序列标注不仅保存了短文本的特征词,还保存了词之间的顺序关系,可以提高短文本情感倾向性分析的准确度。微平均宏平均

8、正确率召回率F值正确率召回率F值0.8530.7430.7940.8540.7450.794CCF自然语言处理与中文计算会议中文微博倾向性分析评测结果句法分析算法基于句法分析算法的 文本情感倾向性分析总体流程图获取评价对象候选集获取评价对象候选集1.采用句法分析获得评价对象,然后通过词频排序的方式,构建评价对象候选集合,然后添加同义词,并且对评价对象赋予权值。获取评价对象候选集2.找到这个修饰对象所在的关系对,是否存在nn的依赖关系,如果存在,那么nn依

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。