资源描述:
《多项式核支持向量机文本分类器泛化性能分析_孙建涛.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第41卷第8期计算机研究与发展Vol141,No182004年8月JOURNALOFCOMPUTERRESEARCHANDDEVELOPMENTAug12004多项式核支持向量机文本分类器泛化性能分析孙建涛郭崇慧陆玉昌石纯一(清华大学计算机科学与技术系北京100084)(清华大学智能技术与系统国家重点实验室北京100084)(sjt@mails1tsinghua1edu1cn)摘要VC维理论和结构风险最小化准则是统计学习理论中的重要内容,基于这一理论的支持向量机算法由于具有好的泛化性能受到重视,并被研究用于文本分类问题1基于多项式核的研究工作认为SVM的
2、泛化能力不受多项式阶数的影响,并且能够处理很高维的分类问题,用于文本分类无需进行特征选择1研究发现,随着多项式核阶数的升高,SVM文本分类器会出现过学习现象,并且特征数越多越明显,特征选择是必需的1通过估计函数集的VC维,基于结构风险最小化理论对此问题进行分析,得出的结论跟实验结果相符1关键词支持向量机;文本分类;结构风险最小化中图法分类号TP18EstimatingtheGeneralizationPerformanceofPolynomialSVMClassifierforTextCategorizationSUNJian-Tao,GUOChong-
3、Hui,LUYu-Chang,andSHIChun-Yi(DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084)(StateKeyLaboratoryofIntelligentTechnologyandSystem,TsinghuaUniversity,Beijing100084)AbstractVCtheoryandstructuralriskminimizationprinciplearekeyconceptsofstatisticallearningthe
4、o-ry1Developedfromthistheory,SVMiswidlyinvestigatedandusedfortextcategorizationbecauseofitshighgeneralizationperformance1PreviousworkshowedthatpolynomialSVM.sperformancewasirrevelantoftheorderanditwasappropriateforhighdimensionaltextcategorizationproblemswithoutfeatureselec-tion1
5、Theresearchindicatesover-fittingproblemsoccurasthepolynomialorderincreases1SVM.sgenera-lizationperformancedecreasesdrasticallyiftoomanyfeaturesareused,sofeatureselectionisnecessary1Basedonthestructuralriskminimizationprinciple,thisfactisanalyzedviaestimatingfunctionalclasses.sVCd
6、imension1Andtheempiricalresultssupportthetheoreticalconclusions1Keywordssupportvectormachine;textcategorization;structuralriskminimization[4,5]习算法正是SRM准则的体现1SVM算法把输1引言入空间的样本通过非线性变换映射到高维特征空间,在特征空间中求取把样本线性分开的分类面1统计学习理论(statisticallearningtheory,SLT)算法使用分类间隔控制线性学习机器的容量,从而中基于VC维(Vapn
7、ikChervonikisdimension)提出使结构风险最小1不同的核函数即变换到不同的特的结构风险最小化(structuralriskminimization,征空间,使用核函数也避免了在高维的特征空间中SRM)思想,为基于数据的机器学习提供了一种归直接计算1SVM因具有好的泛化性能而受重视1[1,2]纳推理准则,具有好的泛化性能,或者说预测问文献[6]最先用SVM算法做文本分类,并同以[3]题空间中未知样本的正确率高1在SLT上发展起前的机器学习算法比较,发现SVM泛化性能好,能来的支持向量机(supportvectormachine,SVM)学
8、处理很高维的分类问题,并且无需进行特征选择1收稿日期:2003-06-30;修回