欢迎来到天天文库
浏览记录
ID:58863307
大小:185.00 KB
页数:3页
时间:2020-09-22
《基于情感倾向的书评自动分类.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于情感倾向的书评自动分类张朝阳摘 要商品评论的自动分类在电子商务中有重要的应用价值。首先对图书评论语料库进行未了登录词识别。然后以《知网》情感词为种子词汇,提出了一种基于条件随机场的Bootstrapping情感词挖掘算法,并利用互信息将这些情感词分为褒义和贬义。根据句子中包含正面情感词和负面情感词的数目,同时考虑否定副词和转折连词的影响,将图书评论自动分为好评和差评。对从电商网站上随机爬取的2026条书评做自动分类,平均正确率达81.8%,平均召回率达81.1%,说明了算法的有效性。关键词情感挖掘 书评分类 条件随机场A
2、UTOMATICCLASSIFICATIONOFBOOKREVIEWSBASEDONEMOTIONALTENDENCIESZhangChaoyangAbstractAutomaticclassificationofproductreviewshasgreatapplicationvalueine-commerce.Firstly,unknownwordswererecognizedfromcorpus.WithHowNetemotionalwordsasseedvocabulary,abootstrappingemotion
3、alwordsminingalgorithmbasedonConditionalRandomFieldsisproposed.Emotionalwordsweredividedintopraiseandpoorinthelightofmutualinformation.Accordingtothenumberofpositiveandnegativeemotionalwordsinasentence,meanwhiletakingintoaccounttheeffectsofnegativeadverbsandconjunc
4、tions,bookreviewswereautomaticallydividedintogoodandbadbasis.Classificationexperimentson2026bookreviewscrawledfrome-commercesiteprovedtheeffectivenessofthisalgorithmwitharesultof81.8%accuracyand81.1%recall.KeywordsEmotionalminingBookreviewclassificationConditionalr
5、andomfields0引 言商品评论是电子商务信任机制的重要组成部分,目前国内的电商网站都会将评论分为好评与差评以方便用户浏览,然而它们划分的依据仅仅是用户给商品评的星级,这在有些情况下是不准确的,比如京东商城上有一条书评是“新书,物流给力,还没看内容,不能妄评”,根据评论的内容来看用户表达的正面情感要多一些,但由于只评了一颗星所以京东把这条书评划入了“不喜欢”。本文挖掘图书评论中隐含的情感,自动将其分为好评或差评。按情感倾向对商品评论进行分类时一般可使用情感词作为特征项对文本进行表示,通过相似度比较将文本进行归类。周德友
6、[1]研究了基于HowNet的情感词构建。马渊[2]在计算语义相似度时考虑了义原深度对语义相似度性能的影响,并使用经验权值系数对语义相似度算法进行改造。闻彬等Error!Referencesourcenotfound.重新定义概念的情感相似度,对程度副词进行精细的划分并赋予不同的权值,同时考虑了否定副词对语义理解的影响。韩忠明等Error!Referencesourcenotfound.则进一步考虑了转折和递进连词对语义理解的影响。李荣军[5]使用多分类器融合框架检测句子倾向,并引入自适应算法以提高分类精度。文能Error!
7、Referencesourcenotfound.在对评论进行倾向性分析之前先构建特定商品领域构的本体,详细识别评论的对象。本文根据图书评论中包含正负面情感词的多少,同时考虑否定副词和转折连词的影响,将评论分为好评和差评。这里的重点工作在于搜集尽量完备的情感词词库,本文提出一种基于条件随机场的Bootstrapping方法对情感词进行识别标记。在此之前我们先对书评语料中的未登录词进行了识别,因为未登录词中也可能包含情感词。1条件随机场条件随机场(ConditionalRandomFields,CRF)最早由Lafferty等人
8、于2001年提出[7],是一种用于标记的统计方法。CRF采用了一阶链式无向图结构,如图1所示,是观察序列,是标签序列,X是全局条件,并且不对X作任何假设。图1CRF的链式无向图结构在给定观察序列X的情况下,标签序列Y的条件概率为:(1)其中为i-1到i时刻的状态转移特征函数,为i时刻的状态
此文档下载收益归作者所有