使用基于模式的Bootstrapping方法抽取情感词.pdf

使用基于模式的Bootstrapping方法抽取情感词.pdf

ID:53729384

大小:234.25 KB

页数:3页

时间:2020-04-20

使用基于模式的Bootstrapping方法抽取情感词.pdf_第1页
使用基于模式的Bootstrapping方法抽取情感词.pdf_第2页
使用基于模式的Bootstrapping方法抽取情感词.pdf_第3页
资源描述:

《使用基于模式的Bootstrapping方法抽取情感词.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ComputerEngineeringandApplications计算机工程与应用使用基于模式的Bootstrapping方法抽取情感词王昌厚,王菲WANGChanghou,WANGFei1.晋中学院计算机学院,山西晋中0306002.北京大学计算语言所,北京1008711.SchoolofComputerScienceandTechnology,JinzhongUniversity,Jinzhong,Shanxi030600,China2.InstituteofComputationalLinguistics,PekingUniversity,Beijing100871,China

2、WANGChanghou,WANGFei.ExtractingsentimentwordsusingpatternbasedBootstrappingmethod.ComputerEngineeringandApplications,2014,50(1):127—129.Abstract:Sentiment(oropinionated)lexiconsplayanimportantroleinsentimentanalysis.Withthebloomingofnetneol-ogisms,itisquitenecessarytoidentifynewsentimentwordsand

3、improvecurrentsentimentlexicons.ThispaperproposesapatternbasedBootstrappingmethodwhichextractssentimentwordsfrommicroblogs.Theexperimentalresultsvalidatetheeffectivenessofthemethodandlargequantityofun-recordedsentimentwordsareextractedwithreasonableprecisions.Keywords:sentiment(oropinionated)wor

4、d;pattern;Bootstrapping摘要:情感评价词典在情感分析中具有非常重要的作用,在新词频发的网络环境中,识别新的情感评价词,完善现有的情感词典是非常有必要的。使用基于模式的Bootstrapping方法,在微博语料中抽取情感评价词。实验证明,在保持了较理想的精确率的情况下,上述方法抽取了数量可观的传统情感词典未收录的情感评价词。关键词:情感评价词;模式;Bootstrapping方法文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002.8331.1203.03231引言2相关工作随着互联网承载信息的迅速膨胀,其作为信息交流HowNet(WW

5、W.keenage.corn)于2007年发布了“情媒体的功能得到了迅速的推广;同时,随着社交媒体的感分析用词语集(beta版)”,其中包含了(中文)正面评快速发展,用户的交互性和参与性得到了显著的增强。价词语(eg:才高八斗)、正面情感词语(eg:快乐),负面家庭和日常生活构成了微博中数目最多,发表人数最评价词语(eg:丑)和负面情感词语(eg:哀伤)共8746个多,情感表达最多的话题。为此,以微博为语料的情感词,是中文最常用的情感评价词典。然而,HowNet中收倾向性分析成为了诸多学者关注的问题。在基于知识录的词都比较正统,难以覆盖网络中日益勃发的新词。的情感倾向性分析中,情感评价

6、词典的准确率和覆盖率为此,使用机器在大规模语料中自动地获取带情感倾向决定了情感分析的准确率和召回率。而在新词频发的的词就显得非常重要了。文献[2.3]使用PM!(Pointwise网络大背景下,完善情感评价词典就显得非常有必要MutualInformation),通过计算一个词和已知极性的种了。例如,需要识别“给力”、“V5(威武)”、“坑爹”等网子词(或表情符号)的互信息量,推断该词是否是情感倾络新词为情感评价词。本文采用了一种基于模式的向词。文献[4]使用句法分析,推测和扩展评价词集。Bootstrapping方法,从微博语料中抽取情感评价词。值上述方法大都要求首先实现对词或句法关

7、系的识别。得说明的,本文的任务在于抽取情感评价词,而非鉴别不同于上述方法,本文希望借助基于模式的方法,该词的极性。例如,将抽取“坑爹”作为情感评价词,而通过模式划定新词的边界,跨过新词识别的过程,直接将鉴别该词的极性(正面/负面)作为日后的工作。进行情感倾向词的抽取。基于模式的方法通常用于信作者简介:王昌厚(1963一),男,副教授,主要研究领域:算法设计,文本挖掘;王菲(1989一),女,主要研究领域:自然语言处理。E—mail:jzxywc

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。