欢迎来到天天文库
浏览记录
ID:33732855
大小:3.19 MB
页数:42页
时间:2019-02-28
《基于样本约简支持向量机》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要摘要支持向量机是基于统计学习理论发展起来的一种新颖的机器学习方法,它是专门针对小样本数据而言的。支持向量机具有一些不同于其他机器学习方法的独特优点,如间隔最大原则,核函数技术应用,泛化能力强,可调整参数少,能达到全局最优等。正是由于这些优点,支持向量机在很多领域得到了广泛应用。然而,对于大规模数据在训练过程中需要占用很大的存储空间,计算量也非常大,造成了支持向量机的训练速度非常缓慢。在支持向量机训练过程中大量的非支持向量不起作用,只有一小部分支持向量决定着分类边界面,基于这种想法本文提出了一种基于样本约简的支持向量机方法。首先采用支持向量域描述算法构造最小超球,利用内积
2、的一些基本知识去掉球外部分可能的非支持向量样本点,再对球内样本点和球外剩下的样本点利用距离去边缘点,得到最终训练样本集。实验证明了本文方法的有效性,在不损失测试精度情况下大大减少了训练时间,尤其对于样本数目非常大的数据,此方法更为适用。关键词支持向量机支持向量域描述内积约简IAbstractAbstractSupportVectorMachine(SVM)foundedonVapnikstatisticallearningtheory,anovelmachinelearningmethodtothesmalldatasets,haveplayedanimportantrol
3、einmanyareas,duetoitssalientpropertiessuchasmarginmaximizationandkernelsubstitutionforclassifyingthedatainhighdimensionalfeaturespace.Besides,SVMshavehighfittingaccuracy,asmallnumberoftunableparametersandcanfindtheglobalsolution.Nevertheless,forthelargescaledataset,thespeedofSVMisveryslowb
4、ecauseofitsgreatmemoryspaceanditslargeamountofcalculation.Fortheproblemofmanynon-supportvectorsandafewsupportvectorsintheclassificationofSVM,amethodtoreducethesamplesthatmaybenotsupportvectorsisproposedinthispaper.FirstlyadoptSupportVectorDomainDescriptiontofindthesmallestspherecontainingt
5、hemostofdatapoints,removesomeobjectsoutsidethespherebasedontheknowledgeoftheinndot,andthenbasedonthedistanceofeachpatterntothecentersofotherclassestoremovetheedgepoints.IncomparisonwiththestandardSVM,theexperimentalresultsshowthatthenewalgorithminthepaperiscapableofreducingthenumberofsampl
6、esaswellasthetrainingtimewhilemaintaininghighaccuracy,especiallyforthelargenumberdatasets,thenewmethodismoresuitable.KeywordsSupportVectorMachineSupportVectorDomainDescriptionInnerproductReduceII第1章绪论第1章绪论1.1支持向量机的研究背景数据挖掘(DataMining)是从观测到的数据集,抽取出潜在的,有价值的信息。它是三大学科的交叉:机器学习,统计学,数据库技术。数据挖掘的主要
7、任务有:(1)分类,如银行客户关系分类;(2)预测,如股票预测,GDP预测;(3)关联规则,如购物篮分析;(4)聚类,如金融欺诈行为检测。数据挖掘中的几种常见机器学习方法:人工神经网络,决策树,最邻近方法,支持向量机,粗糙集等。数据挖掘最大的一个特点就是海量数据集,例如美国宇航局NASA的地球观测系统每小时生成几个GB的原始数据,9人类基因工程超过3.310×个核苷酸的数据库,美国零售商沃尔玛每天大约2千万笔交易等等海量数据。对于这些海量数据,传统的数据挖掘方法没法应用;还有维数灾难,过度拟合等问题;利用传统方法分
此文档下载收益归作者所有