research on chinese orientation analysis

ID:5265396

大小:352.94 KB

页数:8页

时间:2017-12-07

research on chinese orientation analysis_第1页
research on chinese orientation analysis_第2页
research on chinese orientation analysis_第3页
research on chinese orientation analysis_第4页
research on chinese orientation analysis_第5页
资源描述:

《research on chinese orientation analysis》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中文倾向性分析的研究张猛,彭一凡,樊扬,李丹,林小俊,吴玺宏北京大学言语听觉研究中心,北京,100871E-mail:{zhangm,pengyf,fanyang,lidan,linxj,wxh}@cis.pku.edu.cn摘要:文本倾向性分析是自然语言处理中的一个热点问题。本文介绍了一套中文文本倾向性分析的方法,它包括词法分析和倾向性判别两个步骤。在词法分析中,基于条件随机场模型,对输入的文本进行分词和命名实体识别的一体化处理,从而有效地提高了分析性能。在倾向性判别中,从词汇、句子和篇章三个不

2、同层次进行分析。其中在词汇层次上采用最大熵模型,根据上下文信息进行情感词识别和极性判别。在句子层次上根据构建的属性列表抽取评价对象,并通过修饰词判断其倾向性。在篇章层次上,以词汇判别结果为基础,采用支持向量机模型,融合多种信息对文本的主客观和极性进行判别。最后,本文在搜索引擎中加入文本倾向性分析功能,在检索到相关文档的同时,得到其褒贬倾向。关键词:词法分析一体化,情感词,倾向性分析ResearchonChineseOrientationAnalysisZhangMeng,PengYifan,Fan

3、Yang,LiDan,LinXiaojun,WuXihongSpeechandHearingResearchCenter,PekingUniversity,Beijing,100871E-mail:{zhangm,pengyf,fanyang,lidan,linxj,wxh}@cis.pku.edu.cnAbstract:Orientationanalysisisahotspotinnaturallanguageprocessing.ThispapermainlyproposedsomeChine

4、seorientationanalysisapproaches,whichincludedlexicalanalysisandorientationdistinction.Thelexicalanalysisintegratedwordsegmentationandentityidentificationmethodstoimproveanalysisperformance.Orientationdistinctioncouldbeutilizedonword,sentenceandarticle

5、levels.Onthewordlevel,itconsideredthecontextinformationtorecognizethesentimentwordanditspolaritybasedonMaximumEntropymodel.Onthesentencelevel,itextractedevaluatingobjectsaccordingtopre-constructedpropertylist,andpredictedtheirorientationthroughmodifyi

6、ngwords.Onthearticlelevel,ittookthewordlevelmodelasitsfundamental,combinedwithmulti-informationtodistinctarticles’orientationbymeansofSupportVectorMachine.Finally,itpluggedorientationanalysisfunctioninthesearchenginetogetcorrespondingdocumentswiththei

7、rorientationaswell.Keywords:integratedlexicalanalysis,sentimentword,orientationanalysis1引言随着计算机的普及和网络的发展,大量信息以电子文本的形式出现。面对信息爆炸带来的挑战,人们迫切需要更快更便捷的方法获取所需信息。倾向性分析就是在这样的背景下应运而生的。例如,在购买一款手机之前,我们往往会去一些网站或论坛,浏览其他用户的评价,这需要花费很多时间。然而在倾向性分析技术的帮助下,我们就可以快速地获得这款手机的综

8、合评价。由此可以看出,倾向性分析有着广泛的应用前景。因此近几年,它已经成为自然语言处理中的一个热点问题。本文提出了一套中文文本倾向性分析的方法,它包括词法分析和情感倾向性判别两部分。在词法分析部分,该方法对输入文本进行分词、命名实体识别和词性标注。由于这三1者都可以视为序列标注任务,因此有很多序列标注模型可以应用,如条件随机场[1](ConditionalRandomFields)等。分词和命名实体识别之间存在着紧密联系,所以本文采用条件随机场模型,将分词和命名实体识别合并为一个序

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
正文描述:

《research on chinese orientation analysis》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中文倾向性分析的研究张猛,彭一凡,樊扬,李丹,林小俊,吴玺宏北京大学言语听觉研究中心,北京,100871E-mail:{zhangm,pengyf,fanyang,lidan,linxj,wxh}@cis.pku.edu.cn摘要:文本倾向性分析是自然语言处理中的一个热点问题。本文介绍了一套中文文本倾向性分析的方法,它包括词法分析和倾向性判别两个步骤。在词法分析中,基于条件随机场模型,对输入的文本进行分词和命名实体识别的一体化处理,从而有效地提高了分析性能。在倾向性判别中,从词汇、句子和篇章三个不

2、同层次进行分析。其中在词汇层次上采用最大熵模型,根据上下文信息进行情感词识别和极性判别。在句子层次上根据构建的属性列表抽取评价对象,并通过修饰词判断其倾向性。在篇章层次上,以词汇判别结果为基础,采用支持向量机模型,融合多种信息对文本的主客观和极性进行判别。最后,本文在搜索引擎中加入文本倾向性分析功能,在检索到相关文档的同时,得到其褒贬倾向。关键词:词法分析一体化,情感词,倾向性分析ResearchonChineseOrientationAnalysisZhangMeng,PengYifan,Fan

3、Yang,LiDan,LinXiaojun,WuXihongSpeechandHearingResearchCenter,PekingUniversity,Beijing,100871E-mail:{zhangm,pengyf,fanyang,lidan,linxj,wxh}@cis.pku.edu.cnAbstract:Orientationanalysisisahotspotinnaturallanguageprocessing.ThispapermainlyproposedsomeChine

4、seorientationanalysisapproaches,whichincludedlexicalanalysisandorientationdistinction.Thelexicalanalysisintegratedwordsegmentationandentityidentificationmethodstoimproveanalysisperformance.Orientationdistinctioncouldbeutilizedonword,sentenceandarticle

5、levels.Onthewordlevel,itconsideredthecontextinformationtorecognizethesentimentwordanditspolaritybasedonMaximumEntropymodel.Onthesentencelevel,itextractedevaluatingobjectsaccordingtopre-constructedpropertylist,andpredictedtheirorientationthroughmodifyi

6、ngwords.Onthearticlelevel,ittookthewordlevelmodelasitsfundamental,combinedwithmulti-informationtodistinctarticles’orientationbymeansofSupportVectorMachine.Finally,itpluggedorientationanalysisfunctioninthesearchenginetogetcorrespondingdocumentswiththei

7、rorientationaswell.Keywords:integratedlexicalanalysis,sentimentword,orientationanalysis1引言随着计算机的普及和网络的发展,大量信息以电子文本的形式出现。面对信息爆炸带来的挑战,人们迫切需要更快更便捷的方法获取所需信息。倾向性分析就是在这样的背景下应运而生的。例如,在购买一款手机之前,我们往往会去一些网站或论坛,浏览其他用户的评价,这需要花费很多时间。然而在倾向性分析技术的帮助下,我们就可以快速地获得这款手机的综

8、合评价。由此可以看出,倾向性分析有着广泛的应用前景。因此近几年,它已经成为自然语言处理中的一个热点问题。本文提出了一套中文文本倾向性分析的方法,它包括词法分析和情感倾向性判别两部分。在词法分析部分,该方法对输入文本进行分词、命名实体识别和词性标注。由于这三1者都可以视为序列标注任务,因此有很多序列标注模型可以应用,如条件随机场[1](ConditionalRandomFields)等。分词和命名实体识别之间存在着紧密联系,所以本文采用条件随机场模型,将分词和命名实体识别合并为一个序

显示全部收起
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭