欢迎来到天天文库
浏览记录
ID:21844405
大小:56.55 KB
页数:10页
时间:2018-10-25
《基于中文微博的产品评价分类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于中文微博的产品评价分类算法摘要:在中文微博产品评价分类算法中,由于常规SVM分类器在对少量标记数据的样本进行训练时,泛化能力无法满足要求,无法直接应用于微博文本的数据挖掘中,而传统的半监督TSVM算法的改造是通过对未标记数据增加惩罚函数完成的,这样会产生非凸函数优化问题。因此该文研究一种半监督高斯混合模型核的支持向量机分类算法。使用高斯混合模型对已标记和未标记数据进行训练,求取概率分布。最后通过一个对于iPhone手机的评价实例进行分析,验证了该文研究方法的优势。关键词:微博;产品评价;数据挖掘;支持向量机;半监督学习中图分类号:TN911734;TP393文献标识码:A文
2、章编号:10047373X(2016)14?0077?03ProductevaluationandclassificationalgorithmbasedonChinesemicroblogZHANGYan(CollegeofEducationalScience,XinjiangNormalUniversity,Urumqi830017,China)Abstract:TheevaluationandclassificationalgorithmofChinesemicroblogproductsisstudiedinthispaper.Becausetheconventiona
3、lsupportvectormachine(SVM)classifiercannotsatisfytherequirementofthegeneralizationabilitywhenthesamplesaretrainedwithasmallamountoflabeleddata,itcannotbedirectlyappliedtothedataminingofthemicroblogtext.AndtheimprovementofthetraditionalsemisupervisedTSVMalgorithmisaccomplishedbyincreasingthep
4、enaltyfunctiontotheunlabeleddata,butthiswillproduceanonconvexfunctionoptimizationproblem.Therefore,asemi?supervisedkernelSVMclassificationalgorithmbasedonGaussmixturemodelisstudiedinthispaper.TheGaussmixturemodelisusedtotrainlabeledandunlabeleddatatoobtaintheprobabilitydistribution.SVMclassi
5、ficationalgorithmcanmakeuseoftheclusteringinformationwithunlabeleddataasfaraspossible.Finally,theadvantagesofthisresearchmethodareverifiedbyanalyzinganexampleofevaluationforiPhonemobilephone.Keywords:microblog;productevaluation;datamining;supportvectormachine;semi?supervisedlearning0引言随着计算机和
6、互联网的普及,人们越来越多的在网络中分享、交流、获取信息。互联网社交平台的出现丰富了人们分析、获取信息的途径。人们可以在互联网社交平台上真实地表达自己对于某种产品的观点、评价和立场等,这些观点评价等信息涵盖了大量的情感信息;因此对于这些情感信息进行挖掘,能够帮助企业商家分析人们对于产品的评价,了解产品动态,及时做出有效整改,帮助监管部门进行监督和民意调查等[1?3]。微博是近几年快速兴起的互联网社交平台,其特点是信息传播速度快,范围广,用户量大等。人们越来越依赖微博,越来越愿意在微博中发布自己对于购买商品的评价,因此通过微博对于产品情感评价信息的数据挖掘,能够获取大量有意义的产
7、品评价信息[4?6]o1基于中文微博的产品评价方法在对产品评价和情感分析的数据挖掘领域中,使用比较广泛的方法之一是机器学习方法。机器学习方法主要包括神经网络、支持向量机等监督学习方法,对于己标记数据能够达到极高的分类准确率,但是数据的标记过程是限制其应用的主要因素。非监督学习方法不需要大量的标记数据进行分类,但是技术不够成熟,因此本文使用一种半监督型机器学习方法:半督导SGSVM算法,进行微博中对产品评价信息的挖掘和分类[7?9]。对于微博中对产品评价信息的挖掘和分类流程如图1所示。首先,需
此文档下载收益归作者所有