欢迎来到天天文库
浏览记录
ID:34822556
大小:1.34 MB
页数:41页
时间:2019-03-11
《试析基于粗糙集和支持向量机的多值分类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、河北农业大学硕士学位论文基于粗糙集和支持向量机的多值分类算法姓名:冯洪海申请学位级别:硕士专业:农业机械化工程指导教师:蒋文科;邝朴生2002.6.1独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了特别加以标注和感谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得王趵型笔立L皇母或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明和表示谢意。学位论文作一铆-弓⋯飙。》年,El们日学位论文版权使用授权书本学位论文作者完全了解鸨塑趁至
2、至有关保留、使用学位论文的规定,有权保留并向国家有关部门和机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授超迢!!!:l塑芝垒:l,以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后使用本授权书)学位论文作者签名潮衢互/聊馘2翻冲签字日期:。≯年∥月订日签字日期:妇年占月Ⅺ日翌苎查些奎兰堡圭堂竺笙苎苎!至__茎二!—!∑摘要T支持向量机(svM)是近年来发展起来的基于小样本的新的通用学习技术。该技术具有坚安的理论基础、强泛化能力,分类精度高且能收敛至全局最优解。但它是二
3、值分类器,分类精度,又实现了数据压缩。其中利用主属性中不可分辨关系(或相近关系)预分类的方sⅧ的训练集预分类的方法如下。(2)去掉离散化后不可分辨的属性。(3)将决策表进行属性约简,值约简。(4)计算每个属性的等价类数目,选择等价类数目最多的属性作为主属性。如有多个属性的等价类都具有最多的等价类数目,则选择等价类中包含类别数最少的属性。(5)让每一个等价类(或相近类)作为一个子集,作为svM的训练集。得出SVM决策函数。(6)在每个子集所在离散空间用相应的决策函数进行分类。本算法利用一个主属性的不可分辨值将样本空间分成多个子集,然后在这些子集中再进行sⅧ测
4、试。这样既压缩了数据,又保证了分类精度。通过仿真试验,表明算法是可行的。、//关键词模式识别;统计学习理论支持向量机:粗糙集:属性约简;值纶奄!!!!查些查兰堡主兰垡丝苎塑三.墨2王!!,!L引言基于数据的机器学习是现代智能技术中的重要方面,它研究从观测数据(样本)出发寻找规律,并利用这些规律对未来数据或无法观测的数据进行预测。现有机器学习方法共I司的重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论。但在实际问题中,样本数往往是有限的。例如.由于资金问题钻井数据有限,由于战乱原因洪水预报资料缺失等等。因此一些理论上很优秀的学习方法
5、实际中表现却可能不尽人意。在传统的统计处理方法中,ML(MaximumLikelihood)需要大量数据,且要从数据估计概率密度,Bayesian推断需要强的先验信息。人工神经网络方法虽然在实际应用中获得了很大成绩,但它没有形成完整的理论基础,片面强调克服训练误差,因而容易产生Overfitting现象,造成推广性能下降。并不可避免产生局部极小现象。另外,在网络结构选择等方面,需要太多的参数选择,而不同的选择可能导致相反的结果——成功或失败,因此过分依赖经验,造成该方法的健壮性受到影响。与传统统计学相比,统计学习理论(StaristicalLearning
6、Theory或SLT)是一种专门研究小样本情况下机器学习规律的理论。V.Vapnik等人从六、七十年代开始致力于此方面研究,到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视。统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问题(比如神经网络结构选择问题、局部极小点问题等);同时,在这一理论基础上发展了一种新的通用学习方法一一支持向量机(SupportVectorMachine或
7、SVM),它已初步表现出很多优于已有方法的性能。一些学者认为,SLT和SVM正在成为继神经网络研究之后新的研究热点“⋯1,并将有力地推动机器学习理论和技术的发展。1995年,Vapnik全面阐述了统计学习理论⋯’“。,其原始动机之一是试图将人工神经网络的研究回归到感知机,如果这个设想成立,基于非线性优化的人工神经网络的研究就可以变换为线性优化的问题。这对机器学习的研究来说,无疑是十分诱人的。这就是近几年统计学习理论得到各国研究者与工程师重视的原因。支持向量机算法用非线性映射把数据映射到一个高维特征空间,在高维特征空间进行线性分类和线性回归,将原问题转化为一
8、个凸二次优化问题,其基本思想是通过选择训练集中的一组特征子集(支持
此文档下载收益归作者所有