基于样本约简支持向量机

基于样本约简支持向量机

ID:33732855

大小:3.19 MB

页数:42页

时间:2019-02-28

基于样本约简支持向量机_第1页
基于样本约简支持向量机_第2页
基于样本约简支持向量机_第3页
基于样本约简支持向量机_第4页
基于样本约简支持向量机_第5页
资源描述:

《基于样本约简支持向量机》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要摘要支持向量机是基于统计学习理论发展起来的一种新颖的机器学习方法,它是专门针对小样本数据而言的。支持向量机具有一些不同于其他机器学习方法的独特优点,如间隔最大原则,核函数技术应用,泛化能力强,可调整参数少,能达到全局最优等。正是由于这些优点,支持向量机在很多领域得到了广泛应用。然而,对于大规模数据在训练过程中需要占用很大的存储空间,计算量也非常大,造成了支持向量机的训练速度非常缓慢。在支持向量机训练过程中大量的非支持向量不起作用,只有一小部分支持向量决定着分类边界面,基于这种想法本文提出了一种基于样本约简的支持向量机方法。首先采用支持向量域描述算法构造最小超球,利用内积

2、的一些基本知识去掉球外部分可能的非支持向量样本点,再对球内样本点和球外剩下的样本点利用距离去边缘点,得到最终训练样本集。实验证明了本文方法的有效性,在不损失测试精度情况下大大减少了训练时间,尤其对于样本数目非常大的数据,此方法更为适用。关键词支持向量机支持向量域描述内积约简IAbstractAbstractSupportVectorMachine(SVM)foundedonVapnikstatisticallearningtheory,anovelmachinelearningmethodtothesmalldatasets,haveplayedanimportantrol

3、einmanyareas,duetoitssalientpropertiessuchasmarginmaximizationandkernelsubstitutionforclassifyingthedatainhighdimensionalfeaturespace.Besides,SVMshavehighfittingaccuracy,asmallnumberoftunableparametersandcanfindtheglobalsolution.Nevertheless,forthelargescaledataset,thespeedofSVMisveryslowb

4、ecauseofitsgreatmemoryspaceanditslargeamountofcalculation.Fortheproblemofmanynon-supportvectorsandafewsupportvectorsintheclassificationofSVM,amethodtoreducethesamplesthatmaybenotsupportvectorsisproposedinthispaper.FirstlyadoptSupportVectorDomainDescriptiontofindthesmallestspherecontainingt

5、hemostofdatapoints,removesomeobjectsoutsidethespherebasedontheknowledgeoftheinndot,andthenbasedonthedistanceofeachpatterntothecentersofotherclassestoremovetheedgepoints.IncomparisonwiththestandardSVM,theexperimentalresultsshowthatthenewalgorithminthepaperiscapableofreducingthenumberofsampl

6、esaswellasthetrainingtimewhilemaintaininghighaccuracy,especiallyforthelargenumberdatasets,thenewmethodismoresuitable.KeywordsSupportVectorMachineSupportVectorDomainDescriptionInnerproductReduceII第1章绪论第1章绪论1.1支持向量机的研究背景数据挖掘(DataMining)是从观测到的数据集,抽取出潜在的,有价值的信息。它是三大学科的交叉:机器学习,统计学,数据库技术。数据挖掘的主要

7、任务有:(1)分类,如银行客户关系分类;(2)预测,如股票预测,GDP预测;(3)关联规则,如购物篮分析;(4)聚类,如金融欺诈行为检测。数据挖掘中的几种常见机器学习方法:人工神经网络,决策树,最邻近方法,支持向量机,粗糙集等。数据挖掘最大的一个特点就是海量数据集,例如美国宇航局NASA的地球观测系统每小时生成几个GB的原始数据,9人类基因工程超过3.310×个核苷酸的数据库,美国零售商沃尔玛每天大约2千万笔交易等等海量数据。对于这些海量数据,传统的数据挖掘方法没法应用;还有维数灾难,过度拟合等问题;利用传统方法分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。