基于词典与语料结合的中文微博主观句抽取方法-论文.pdf

基于词典与语料结合的中文微博主观句抽取方法-论文.pdf

ID:58138365

大小:400.31 KB

页数:8页

时间:2020-04-24

基于词典与语料结合的中文微博主观句抽取方法-论文.pdf_第1页
基于词典与语料结合的中文微博主观句抽取方法-论文.pdf_第2页
基于词典与语料结合的中文微博主观句抽取方法-论文.pdf_第3页
基于词典与语料结合的中文微博主观句抽取方法-论文.pdf_第4页
基于词典与语料结合的中文微博主观句抽取方法-论文.pdf_第5页
资源描述:

《基于词典与语料结合的中文微博主观句抽取方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第4期华东师范大学学报(自然科学版)No.42014年7月JournalofEastChinaNormalUniversity(NaturalScienceJu1.2014文章编号:1000—5641(2014)04.006207基于词典与语料结合的中文微博主观句抽取方法朱海欢,余青松(华东师范大学计算中心,上海200062)摘要:提出一种基于词典与语料结合的中文微博主观句抽取方法,通过判断句子中是否包含情感表达文本来判断句子是否为主观句.首先,从现有的情感词典中挑选出情感倾向较为固定的情感词构建了一个高可信情感词典,用于抽

2、取句子中的情感表达文本,保证情感表达文本抽取的准确率;然后提出N—POSW模型,并基于2-POSW模型通过语料学习的方法较为准确地抽取句子中的剩余情感表达文本,保证了情感表达文本抽取的召回率.实验结果表明相比于传统的基于大规模情感词典的方法,本文方法主观句抽取的F值提高了7%.关键词:情感词典;高可信情感词典;N—POsw模型:主观句中图分类号:TP39文献标识码:ADOI:10.3969/j.issn.i000—5641.2014.04.008StudyontheextractionofChinesemicroblogsu

3、bjectivesentencesbasedonlexiconandcorpusZHUHal—huan.YUQing-song(ComputerCenter,EastChinaNormalUniversity,Shanghai200062,China)Abstract:Inthispaper,weproposeanewmethodfortheextractionofChinesemicroblogsubjectivesentence,whichisbasedonacombinationoflexiconandcorpus.B

4、ydeterminingwhetherthesentencecontainsemotionalexpressions,itcanbeclassifiedasasubjectiveorobjectivesentence.Firstly,ahighlycrediblesentimentlexiconWasbuiltbasedO11thewordswhoseemotionalorientationisfixedfromtheexistingsentimentdictionary.Basedonthehighlycrediblese

5、ntimentlexicon,sentimentexpressionscanbeextractedwithassuranceofaccuracy.FinallyaN—POSWmodelWasproposedforthecorpus—basedlearningmethod.Throughthe2-POSWmodel,theremainedsentimentexpressionsinthesentenceCallbeextracted,thusguaranteeingtheoverallrecallrate.Experiment

6、alresultsshowthattheFValueinthispaperincreases7%comparedwiththetraditionalmethod,whichisbasedonthelarge—scalesentimentlexicon.Keywords:sentimentlexicon;highlycrediblelexicon;N—POSWmodel;subjectivesentence收稿日期:2013—07第一作者:朱海欢,男,硕士研究生,研究方向为自然语言处理.E—mail:zhhh1988@gmai

7、l.com通信作者:余青松,男,高级工程师,硕士生导师,研究方向为Web应用技术.E—mail:qsyu~cc.ecnu.edu.cn.第4期朱海欢,等:基于词典与语料结合的中文微博主观旬抽取方法630引言文本情感分析是自然语言处理领域一个重要的研究方向,广泛应用于商品推荐、商品调研、舆情分析、事件预测、有害信息过滤等领域,具有巨大的社会经济价值.文本主客观分类是文本情感分析的重要组成部分,也是文本情感分析首要解决的问题.目前,英文语句的主客观分类研究较为成熟.Kim[1J通过抽取句子中的情感信息来完成句子的主客观分类.然而

8、,包含情感信息的句子不一定都是主观句.Wiebe[2_5]对句子中主观表达式抽取做了深入的研究,通过抽取句子中主观表达式来提高主客观分类的效率.Pang[a]基于图理论完成了句子的主客观分类.Long[】分析了抽取内容特征、情感词特征、面向主题特征对于Tweets主客观分类效果的影响,发现

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。