欢迎来到天天文库
浏览记录
ID:52768255
大小:259.68 KB
页数:5页
时间:2020-03-30
《改进混合特征模型聚类的文本情感分类算法研究_邢玉娟.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、2014年第35卷第1期中北大学学报(自然科学版)Vol.35No.12014(总第153期)JOURNALOFNORTHUNIVERSITYOFCHINA(NATURALSCIENCEEDITION)(SumNo.153)文章编号:1673-3193(2014)01-0041-05改进混合特征模型聚类的文本*情感分类算法研究邢玉娟,李恒杰,胡建军,王万军(甘肃联合大学电子信息工程学院,甘肃兰州730000)摘要:海量文本信息导致文本情感分类准确率低以及实时性差.针对这一问题,提出一种基于混合特征选择的向量空间模型聚类算法.首先将信息增益(InformationGain,IG)和互信息(Mu
2、tualInformation,MI)与文档的不同词性特征相结合,生成文档的混合特征向量;然后计算文档向量空间模型之间的差异度,根据该差异度对向量空间模型进行聚类,得到聚类中心向量,采用聚类中心向量重新构造文档集的向量空间模型;最终采用支持向量机(SupportVectorMachine,SVM)进行文档情感的判定.仿真实验结果表明:该混合特征向量空间模型聚类算法可以有效地降低文档样本特征的维数和数量,加快SVM的训练速度,同时实验结果也表明不同的词性特征和提取算法组合对系统的分类准确率有较大的影响.关键词:文本情感分类;向量空间模型;K均值聚类算法;支持向量机;信息增益;互信息中图分类号:
3、TP181文献标识码:Adoi:10.3969/j.issn.1673-3193.2014.01.009TextSentimentClassificationAlgorithmResearchBasedonImprovedMixedFeatureModelClusteringXINGYu-juan,LIHeng-jie,HUJian-jun,WANGWan-jun(SchoolofElectronicsandInformationEngineering,GansuLianheUniversity,Lanzhou730000,China)Abstract:Massiveamountsoftex
4、tinformationcausedlowclassificationaccuracyandreal-timeperform-ance.Inordertoimproveaccuracyoftextsentimentclassification,anovelclassificationapproachbasedonmixedvectorspacemodelclusteringwasproposed.IGandMIwereusedtoselecteffectivemixedfea-turevectorsfirstly.Andthendocumentswereclusteredaccordingt
5、othediversitydegreebetweenVSMs.VSMwhichwasreconstructedbyclusteringcentrevectorwasusedtotrainSVM.Theexperi-mentresultsshowthatthemethodcouldreducethedimensionandquantityofdocumentsampleeffectively.Bydoingthis,trainingspeedofSVMisspedupfast.Ourexperimentresultsalsopresentthattheruleofpartsofspeechfe
6、atureselectionandextractionalgorithmhavebigeffectsonclassificationresults.Keywords:textsentimentclassification;vectorspacemodel;K-meansclustering;supportvectorma-chine;informationgain;mutualinformation微博、论坛等方式参与网络信息的交流与传递,0引言导致信息媒体的数量越来越大,网络在线资源数随着互联网技术的飞速发展,用户通过博客、量不断增多.如何在如此庞大的网络数据中快速*收稿日期:2013-0
7、7-26基金项目:甘肃省教育厅基金资助项目(1113-01);甘肃联合大学科研高水平成果项目(2011GSP01)作者简介:邢玉娟(1981-),女,讲师,硕士,主要从事基于机器学习的情感特征分析及识别研究.42中北大学学报(自然科学版)2014年第1期地提取情感信息并及时对其观点(肯定、否定)进导致特征空间高纬度,因此选取信息增益(Infor-行判定,成为越来越多研究者的研究热点.文本mationGain,
此文档下载收益归作者所有