资源描述:
《基于fisher信息量的文本分类》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第23卷第1期计算机技术与发展Vol.23No.12013年1月COMPUTERTECHNOLOGYANDDEVELOPMENTJan.2013基于核Fisher判别的中文文本情感分类研究邢玉娟,李恒杰,曹晓丽,张成文(甘肃联合大学电子信息工程学院,甘肃兰州730000)摘要:针对文本情感分类准确率不高的问题,提出基于核Fisher判别的文本情感分类方法,判别文本观点是正面还是负面。首先采用向量空间模型对文档进行数据化表示,然后将不同权重计算方法和词性特征选择规则与核Fisher判别方法相结合来判别文档的情感观点。实验结果表明:核Fisher判别方法在训练的过程中使用了所有的文本特征向量而不是
2、少数几个支持向量,因此比传统支持向量机具有较高的分类准确率,同时不同的权重特征计算方法和词性特征的选取规则对文本情感分类准确率具有较大的影响。关键词:文本情感分类;核Fisher判别;支持向量机;向量空间模型;Fisher线性判别中图分类号:TP181文献标识码:A文章编号:1673-629X(2013)01-0112-03doi:10.3969/j.issn.1673-629X.2013.01.028ResearchofTextSentimentClassificationBasedonKernelFisherDiscriminantXINGYu-juan,LIHeng-jie,CAOXia
3、o-li,ZHANGCheng-wen(SchoolofElectronicsandInformationEngineering,GansuLianheUniversity,Lanzhou730000,China)Abstract:Inviewoftheproblemoflowaccuracyrateoftextsentimentclassification,themethodoftextsentimentclassificationbasedonkernelFisherdiscriminantwasproposedtodecidethatthetextviewispositiveornega
4、tive.VSMwasusedtodigitalizetextfirstly,andthenclassificationresultswasachievedbasedonKFDcombinedwithdifferentweightcomputingmethodanddifferentpartsofspeechfea-tureselectionrule.TheexperimentresultsshowedthatKFDwassuperiortoSVMintextsentimentclassificationproblem,andalsoshowedthatthemethodofweightcom
5、putationandtheruleofpartsofspeechfeatureselectionhadbigaffectiononrecognitionresults.Keywords:textsentimentclassification;kernelFisherdiscriminant;supportvectormachine;vectorspacemodel;Fisherlineardiscriminant0引言的分支,主要针对文本所表达的情感等主观内容进行随着网络信息技术的迅速发展,博客、微博、论坛分类,判断其是正面还是负面。GSalton提出向量空[2]受到广大网民的关注与参与,使
6、得网络在线资源数量间模型(VectorSpaceModel,VSM)对文本进行数据不断增多,而这些资源大多都是以文本的方式出现。化表示,使得各种机器学习算法可以方便地应用于文[3]如何对这些文本进行有效的组织和分类处理,并根据本情感分类。BoPang最早将机器学习方法应用到这些文本快速地判断出发表者的情感趋向,成为自然文本情感分类中,采用朴素贝叶斯、最大熵和支持向量语言处理和人工智能领域的研究热点。机(SupportVectorMachine,SVM)对电影评论数据进情感分析(SentimentAnalysis),亦称作观点挖掘行分析。在文献[4]中,徐军等人采用朴素贝叶斯分[1](Opini
7、onMining),两者可以互换。情感倾向性分类方法和最大熵分类方法进行新闻内容的情感自动分析就是指通过对评论的文本进行观点挖掘,对给定的类,同样获得了较好的研究成果。周杰[5]将SVM应文本的相关信息进行搜索,提取关键词,根据关键词采用于网络新闻评论情感分析,并将其和KNN、RBF网用一定的判决技术判断出文本所表达的观点(肯定、络等方法进行了比较,指出SVM的性能远远优于上述否定)。基于情感的文