改进混合特征模型聚类的文本情感分类算法研究_邢玉娟.pdf

改进混合特征模型聚类的文本情感分类算法研究_邢玉娟.pdf

ID:52768255

大小:259.68 KB

页数:5页

时间:2020-03-30

改进混合特征模型聚类的文本情感分类算法研究_邢玉娟.pdf_第1页
改进混合特征模型聚类的文本情感分类算法研究_邢玉娟.pdf_第2页
改进混合特征模型聚类的文本情感分类算法研究_邢玉娟.pdf_第3页
改进混合特征模型聚类的文本情感分类算法研究_邢玉娟.pdf_第4页
改进混合特征模型聚类的文本情感分类算法研究_邢玉娟.pdf_第5页
资源描述:

《改进混合特征模型聚类的文本情感分类算法研究_邢玉娟.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、2014年第35卷第1期中北大学学报(自然科学版)Vol.35No.12014(总第153期)JOURNALOFNORTHUNIVERSITYOFCHINA(NATURALSCIENCEEDITION)(SumNo.153)文章编号:1673-3193(2014)01-0041-05改进混合特征模型聚类的文本*情感分类算法研究邢玉娟,李恒杰,胡建军,王万军(甘肃联合大学电子信息工程学院,甘肃兰州730000)摘要:海量文本信息导致文本情感分类准确率低以及实时性差.针对这一问题,提出一种基于混合特征选择的向量空间模型聚类算法.首先将信息增益(InformationGain,IG)和互信息(Mu

2、tualInformation,MI)与文档的不同词性特征相结合,生成文档的混合特征向量;然后计算文档向量空间模型之间的差异度,根据该差异度对向量空间模型进行聚类,得到聚类中心向量,采用聚类中心向量重新构造文档集的向量空间模型;最终采用支持向量机(SupportVectorMachine,SVM)进行文档情感的判定.仿真实验结果表明:该混合特征向量空间模型聚类算法可以有效地降低文档样本特征的维数和数量,加快SVM的训练速度,同时实验结果也表明不同的词性特征和提取算法组合对系统的分类准确率有较大的影响.关键词:文本情感分类;向量空间模型;K均值聚类算法;支持向量机;信息增益;互信息中图分类号:

3、TP181文献标识码:Adoi:10.3969/j.issn.1673-3193.2014.01.009TextSentimentClassificationAlgorithmResearchBasedonImprovedMixedFeatureModelClusteringXINGYu-juan,LIHeng-jie,HUJian-jun,WANGWan-jun(SchoolofElectronicsandInformationEngineering,GansuLianheUniversity,Lanzhou730000,China)Abstract:Massiveamountsoftex

4、tinformationcausedlowclassificationaccuracyandreal-timeperform-ance.Inordertoimproveaccuracyoftextsentimentclassification,anovelclassificationapproachbasedonmixedvectorspacemodelclusteringwasproposed.IGandMIwereusedtoselecteffectivemixedfea-turevectorsfirstly.Andthendocumentswereclusteredaccordingt

5、othediversitydegreebetweenVSMs.VSMwhichwasreconstructedbyclusteringcentrevectorwasusedtotrainSVM.Theexperi-mentresultsshowthatthemethodcouldreducethedimensionandquantityofdocumentsampleeffectively.Bydoingthis,trainingspeedofSVMisspedupfast.Ourexperimentresultsalsopresentthattheruleofpartsofspeechfe

6、atureselectionandextractionalgorithmhavebigeffectsonclassificationresults.Keywords:textsentimentclassification;vectorspacemodel;K-meansclustering;supportvectorma-chine;informationgain;mutualinformation微博、论坛等方式参与网络信息的交流与传递,0引言导致信息媒体的数量越来越大,网络在线资源数随着互联网技术的飞速发展,用户通过博客、量不断增多.如何在如此庞大的网络数据中快速*收稿日期:2013-0

7、7-26基金项目:甘肃省教育厅基金资助项目(1113-01);甘肃联合大学科研高水平成果项目(2011GSP01)作者简介:邢玉娟(1981-),女,讲师,硕士,主要从事基于机器学习的情感特征分析及识别研究.42中北大学学报(自然科学版)2014年第1期地提取情感信息并及时对其观点(肯定、否定)进导致特征空间高纬度,因此选取信息增益(Infor-行判定,成为越来越多研究者的研究热点.文本mationGain,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。