基于最大熵情感倾向探究

基于最大熵情感倾向探究

ID:5941994

大小:32.00 KB

页数:9页

时间:2017-12-29

基于最大熵情感倾向探究_第1页
基于最大熵情感倾向探究_第2页
基于最大熵情感倾向探究_第3页
基于最大熵情感倾向探究_第4页
基于最大熵情感倾向探究_第5页
资源描述:

《基于最大熵情感倾向探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于最大熵情感倾向探究  【摘要】随着电子商务的迅速发展,网络上涌现了许多购物网站和产品论坛,这些购物网站和产品论坛为消费者提供了发表评论的平台。越来越多的人在做出消费决策前喜欢到互联网上参考用户和媒体对某产品的评论和报道信息。本文利用最大熵方法对网络产品评论的情感倾向进行识别,通过实验表明最大熵方法是一种非常有前途的文本分类方法。【关键词】用户评论;文本分类;最大熵模型;情感倾向【Abstract】Withtherapidlyexpandofelectroniccommerce,ithasemergedmanysho

2、ppingwebsitesandtheproductforuminthenet,theseshoppingwebsitesandtheproductforumsprovidespeciallytheplatformfortheconsumerstopublishtheirreviews.Moreandmorepeopleliketobrowsetheuserandthemediapublishedsomeproductreviewsandthereportinformationbeforemakingadecision

3、.MaximumentropymodelisusedtoSentimentAnalysis.Inexperiments,maximumentropymodelisapromisingtechniqueforsentimentanalysis.9【Keywords】Customerreviews;Testclassification;MaximumEntropyModel;Sentiment;Analysis0.引言随着电子商务的迅速发展,近年来,自有服装品牌、网站销售的购物模式得到了越来越多顾客的认可,如凡客诚品、梦芭

4、莎等,因为是自有品牌,所以这些购物网站的商品质量相对统一。越来越多的人在做出消费决策前喜欢到互联网上参考用户和媒体对某产品的评论和报道信息。通过互联网上的产品评论,消费者可以了解其他用户对产品的态度倾向,从而做出更好的购买决策,对于销售商和生产商,可以及时获得用户对其产品和服务的反馈,了解用户对自己和对竞争对手的评价,从而改进产品,改善服务,获得竞争优势。因此,作为非结构化信息挖掘的一个新兴领域,产品评论的情感倾向研究引起了人们极大的兴趣。[1]1.最大熵模型最大嫡模型是用来进行概率估计的:假设是某个事件,b是事件a发

5、生的环境(或称上下文),我们想知道a和b的联合概率,记为p(a,b)。更一般地,设所有可能发生的事件组成的集合为A,所有环境组成的集合为B,我们想知道,对于任意给定的a∈Ab∈B,概率p(a,b)是多少?9我们把这个问题放到自然语言处理的领域来讨论,对于文本分类问题,一个文档分到某个类别可以看成一个事件,文档中出现的词可以看成这个事件发生的环境,我们想知道包含词b的文档属于某一类a的概率。很容易想到的方法是通过训练语料进行统计。给定一个训练集,定义A=(a1,a2,···,am)是文档所属类别集,B=(b1,b2,··

6、·,bn)是文档的特征词集,num(ai,bj)为训练集中二元组(ai,bj)出现的次数,那么我们可以使用如下公式进行概率估计:(ai,bj)=(1)这个方法有个很大的问题,即“稀疏事件”(sparseevidence)问题,即便是很大的训练文本,很多二元组仍然没有出现,武断地认为它的概率为0,显然是不可取的。最大熵模型是这样来解决稀疏事件问题的,它使未知事件的概率分布总是尽可能均匀,即倾向于得到最大嫡[2]。例如一个军事、政治和科技的3类文本分类问题,我们得知,出现“飞机”这个词的80%的文档属子军事类别,对于“飞机

7、”这个词在其他两类中的分布未知.根据最大嫡原则,如果给定一个包含“飞机”这个词文档,那么认为文档以0.8的概率属于军事类别,分别以0.1的概率属子其他两类;如果文档中不包含“飞机”这个词,那么认为文档分别以相同的1/3的概率属于每一个类.即在符合已知约束的情况下,使未知事件的分布尽可能均匀。9具体来说,根据Shannon[2]的定义,嫡的计算公式如下:H(P)=-p(x)log2p(x)(2)那么,求解满足最大嫡原则的概率分布的公式如下:p*=argmaxH(P)(3)如果没有其他任何先验知识,根据滴的性质,式(3)得

8、到最大值的条件是:p(a

9、b)=(4)因为p(a

10、b)=1但是,尽管训练语料中不能给出所有二元组(ai,bj)的概率值,但能够给出部分二元组的概率值,或某些概率需要满足的条件。即问题变成求部分信息下的最大滴或满足一定约束的最优解。如何表示这些部分信息呢研究者引人了特征函数的概念(有时简称为特征).特征函数一般情况下是一个二值函数f

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。