多项式核支持向量机文本分类器泛化性能分析_孙建涛.pdf

多项式核支持向量机文本分类器泛化性能分析_孙建涛.pdf

ID:52768393

大小:230.42 KB

页数:6页

时间:2020-03-30

多项式核支持向量机文本分类器泛化性能分析_孙建涛.pdf_第1页
多项式核支持向量机文本分类器泛化性能分析_孙建涛.pdf_第2页
多项式核支持向量机文本分类器泛化性能分析_孙建涛.pdf_第3页
多项式核支持向量机文本分类器泛化性能分析_孙建涛.pdf_第4页
多项式核支持向量机文本分类器泛化性能分析_孙建涛.pdf_第5页
资源描述:

《多项式核支持向量机文本分类器泛化性能分析_孙建涛.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第41卷第8期计算机研究与发展Vol141,No182004年8月JOURNALOFCOMPUTERRESEARCHANDDEVELOPMENTAug12004多项式核支持向量机文本分类器泛化性能分析孙建涛郭崇慧陆玉昌石纯一(清华大学计算机科学与技术系北京100084)(清华大学智能技术与系统国家重点实验室北京100084)(sjt@mails1tsinghua1edu1cn)摘要VC维理论和结构风险最小化准则是统计学习理论中的重要内容,基于这一理论的支持向量机算法由于具有好的泛化性能受到重视,并被研究用于文本分类问题1基于多项式核的研究工作认为SVM的

2、泛化能力不受多项式阶数的影响,并且能够处理很高维的分类问题,用于文本分类无需进行特征选择1研究发现,随着多项式核阶数的升高,SVM文本分类器会出现过学习现象,并且特征数越多越明显,特征选择是必需的1通过估计函数集的VC维,基于结构风险最小化理论对此问题进行分析,得出的结论跟实验结果相符1关键词支持向量机;文本分类;结构风险最小化中图法分类号TP18EstimatingtheGeneralizationPerformanceofPolynomialSVMClassifierforTextCategorizationSUNJian-Tao,GUOChong-

3、Hui,LUYu-Chang,andSHIChun-Yi(DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084)(StateKeyLaboratoryofIntelligentTechnologyandSystem,TsinghuaUniversity,Beijing100084)AbstractVCtheoryandstructuralriskminimizationprinciplearekeyconceptsofstatisticallearningthe

4、o-ry1Developedfromthistheory,SVMiswidlyinvestigatedandusedfortextcategorizationbecauseofitshighgeneralizationperformance1PreviousworkshowedthatpolynomialSVM.sperformancewasirrevelantoftheorderanditwasappropriateforhighdimensionaltextcategorizationproblemswithoutfeatureselec-tion1

5、Theresearchindicatesover-fittingproblemsoccurasthepolynomialorderincreases1SVM.sgenera-lizationperformancedecreasesdrasticallyiftoomanyfeaturesareused,sofeatureselectionisnecessary1Basedonthestructuralriskminimizationprinciple,thisfactisanalyzedviaestimatingfunctionalclasses.sVCd

6、imension1Andtheempiricalresultssupportthetheoreticalconclusions1Keywordssupportvectormachine;textcategorization;structuralriskminimization[4,5]习算法正是SRM准则的体现1SVM算法把输1引言入空间的样本通过非线性变换映射到高维特征空间,在特征空间中求取把样本线性分开的分类面1统计学习理论(statisticallearningtheory,SLT)算法使用分类间隔控制线性学习机器的容量,从而中基于VC维(Vapn

7、ikChervonikisdimension)提出使结构风险最小1不同的核函数即变换到不同的特的结构风险最小化(structuralriskminimization,征空间,使用核函数也避免了在高维的特征空间中SRM)思想,为基于数据的机器学习提供了一种归直接计算1SVM因具有好的泛化性能而受重视1[1,2]纳推理准则,具有好的泛化性能,或者说预测问文献[6]最先用SVM算法做文本分类,并同以[3]题空间中未知样本的正确率高1在SLT上发展起前的机器学习算法比较,发现SVM泛化性能好,能来的支持向量机(supportvectormachine,SVM)学

8、处理很高维的分类问题,并且无需进行特征选择1收稿日期:2003-06-30;修回

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。