欢迎来到天天文库
浏览记录
ID:58138365
大小:400.31 KB
页数:8页
时间:2020-04-24
《基于词典与语料结合的中文微博主观句抽取方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第4期华东师范大学学报(自然科学版)No.42014年7月JournalofEastChinaNormalUniversity(NaturalScienceJu1.2014文章编号:1000—5641(2014)04.006207基于词典与语料结合的中文微博主观句抽取方法朱海欢,余青松(华东师范大学计算中心,上海200062)摘要:提出一种基于词典与语料结合的中文微博主观句抽取方法,通过判断句子中是否包含情感表达文本来判断句子是否为主观句.首先,从现有的情感词典中挑选出情感倾向较为固定的情感词构建了一个高可信情感词典,用于抽
2、取句子中的情感表达文本,保证情感表达文本抽取的准确率;然后提出N—POSW模型,并基于2-POSW模型通过语料学习的方法较为准确地抽取句子中的剩余情感表达文本,保证了情感表达文本抽取的召回率.实验结果表明相比于传统的基于大规模情感词典的方法,本文方法主观句抽取的F值提高了7%.关键词:情感词典;高可信情感词典;N—POsw模型:主观句中图分类号:TP39文献标识码:ADOI:10.3969/j.issn.i000—5641.2014.04.008StudyontheextractionofChinesemicroblogsu
3、bjectivesentencesbasedonlexiconandcorpusZHUHal—huan.YUQing-song(ComputerCenter,EastChinaNormalUniversity,Shanghai200062,China)Abstract:Inthispaper,weproposeanewmethodfortheextractionofChinesemicroblogsubjectivesentence,whichisbasedonacombinationoflexiconandcorpus.B
4、ydeterminingwhetherthesentencecontainsemotionalexpressions,itcanbeclassifiedasasubjectiveorobjectivesentence.Firstly,ahighlycrediblesentimentlexiconWasbuiltbasedO11thewordswhoseemotionalorientationisfixedfromtheexistingsentimentdictionary.Basedonthehighlycrediblese
5、ntimentlexicon,sentimentexpressionscanbeextractedwithassuranceofaccuracy.FinallyaN—POSWmodelWasproposedforthecorpus—basedlearningmethod.Throughthe2-POSWmodel,theremainedsentimentexpressionsinthesentenceCallbeextracted,thusguaranteeingtheoverallrecallrate.Experiment
6、alresultsshowthattheFValueinthispaperincreases7%comparedwiththetraditionalmethod,whichisbasedonthelarge—scalesentimentlexicon.Keywords:sentimentlexicon;highlycrediblelexicon;N—POSWmodel;subjectivesentence收稿日期:2013—07第一作者:朱海欢,男,硕士研究生,研究方向为自然语言处理.E—mail:zhhh1988@gmai
7、l.com通信作者:余青松,男,高级工程师,硕士生导师,研究方向为Web应用技术.E—mail:qsyu~cc.ecnu.edu.cn.第4期朱海欢,等:基于词典与语料结合的中文微博主观旬抽取方法630引言文本情感分析是自然语言处理领域一个重要的研究方向,广泛应用于商品推荐、商品调研、舆情分析、事件预测、有害信息过滤等领域,具有巨大的社会经济价值.文本主客观分类是文本情感分析的重要组成部分,也是文本情感分析首要解决的问题.目前,英文语句的主客观分类研究较为成熟.Kim[1J通过抽取句子中的情感信息来完成句子的主客观分类.然而
8、,包含情感信息的句子不一定都是主观句.Wiebe[2_5]对句子中主观表达式抽取做了深入的研究,通过抽取句子中主观表达式来提高主客观分类的效率.Pang[a]基于图理论完成了句子的主客观分类.Long[】分析了抽取内容特征、情感词特征、面向主题特征对于Tweets主客观分类效果的影响,发现
此文档下载收益归作者所有