正文描述:《research on chinese orientation analysis》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中文倾向性分析的研究张猛,彭一凡,樊扬,李丹,林小俊,吴玺宏北京大学言语听觉研究中心,北京,100871E-mail:{zhangm,pengyf,fanyang,lidan,linxj,wxh}@cis.pku.edu.cn摘要:文本倾向性分析是自然语言处理中的一个热点问题。本文介绍了一套中文文本倾向性分析的方法,它包括词法分析和倾向性判别两个步骤。在词法分析中,基于条件随机场模型,对输入的文本进行分词和命名实体识别的一体化处理,从而有效地提高了分析性能。在倾向性判别中,从词汇、句子和篇章三个不
2、同层次进行分析。其中在词汇层次上采用最大熵模型,根据上下文信息进行情感词识别和极性判别。在句子层次上根据构建的属性列表抽取评价对象,并通过修饰词判断其倾向性。在篇章层次上,以词汇判别结果为基础,采用支持向量机模型,融合多种信息对文本的主客观和极性进行判别。最后,本文在搜索引擎中加入文本倾向性分析功能,在检索到相关文档的同时,得到其褒贬倾向。关键词:词法分析一体化,情感词,倾向性分析ResearchonChineseOrientationAnalysisZhangMeng,PengYifan,Fan
3、Yang,LiDan,LinXiaojun,WuXihongSpeechandHearingResearchCenter,PekingUniversity,Beijing,100871E-mail:{zhangm,pengyf,fanyang,lidan,linxj,wxh}@cis.pku.edu.cnAbstract:Orientationanalysisisahotspotinnaturallanguageprocessing.ThispapermainlyproposedsomeChine
4、seorientationanalysisapproaches,whichincludedlexicalanalysisandorientationdistinction.Thelexicalanalysisintegratedwordsegmentationandentityidentificationmethodstoimproveanalysisperformance.Orientationdistinctioncouldbeutilizedonword,sentenceandarticle
5、levels.Onthewordlevel,itconsideredthecontextinformationtorecognizethesentimentwordanditspolaritybasedonMaximumEntropymodel.Onthesentencelevel,itextractedevaluatingobjectsaccordingtopre-constructedpropertylist,andpredictedtheirorientationthroughmodifyi
6、ngwords.Onthearticlelevel,ittookthewordlevelmodelasitsfundamental,combinedwithmulti-informationtodistinctarticles’orientationbymeansofSupportVectorMachine.Finally,itpluggedorientationanalysisfunctioninthesearchenginetogetcorrespondingdocumentswiththei
7、rorientationaswell.Keywords:integratedlexicalanalysis,sentimentword,orientationanalysis1引言随着计算机的普及和网络的发展,大量信息以电子文本的形式出现。面对信息爆炸带来的挑战,人们迫切需要更快更便捷的方法获取所需信息。倾向性分析就是在这样的背景下应运而生的。例如,在购买一款手机之前,我们往往会去一些网站或论坛,浏览其他用户的评价,这需要花费很多时间。然而在倾向性分析技术的帮助下,我们就可以快速地获得这款手机的综
8、合评价。由此可以看出,倾向性分析有着广泛的应用前景。因此近几年,它已经成为自然语言处理中的一个热点问题。本文提出了一套中文文本倾向性分析的方法,它包括词法分析和情感倾向性判别两部分。在词法分析部分,该方法对输入文本进行分词、命名实体识别和词性标注。由于这三1者都可以视为序列标注任务,因此有很多序列标注模型可以应用,如条件随机场[1](ConditionalRandomFields)等。分词和命名实体识别之间存在着紧密联系,所以本文采用条件随机场模型,将分词和命名实体识别合并为一个序
显示全部收起