欢迎来到天天文库
浏览记录
ID:14414841
大小:144.50 KB
页数:7页
时间:2018-07-28
《手写数字体识别的支持向量机方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于支持向量机的手写数字识别绪论阿拉伯数字是人类文明的标志之一,也是人们进行交流与沟通的主要媒介。数字作为世界经济发展的信息载体,展示了世界各族人民的思维和认知方式。在我们的日常生活中,每天都要进行大量的文档处理工作,税单、银行支票、汇款单、信用卡账单的处理,以及邮局信函的分检等等,如何利用计算机字符识别和文档处理技术,使人们从这些繁重的手工劳动中解放出来已成为一个迫切需要解决的问题。计算机文字识别,是计算机和人之间进行信息沟通的一座桥梁。计算机文字识别一直是图像识别领域中十分活跃的研究课题。它被认为是典型的图像识别应用研究课题。随着信息
2、时代的到来,如何实习数字识别的自动识别与处理将直接关系到我国信息事业的发展。数字识别是一种类别的识别问题,在理论和技术上都具有较大的研究价值。其中,数字识别特别是手写数字识别因其需要较高的识别精度和较快的识别速度被视为识别领域中“最难的领域”,成为国内外研究的热点。数字的类别只有十种,笔划也比较简单,其识别问题似乎不是很困难,但事实上,一些测试结果表明,数字的正确识别率并不如印刷体汉字识别正确率高,甚至也不如连机手写体汉字识别率高。这其中的主要原因如下:第一:手写数字字形相差不大,比如“1”和“7”,“3”和“8”很相似,使得准确区分某些
3、数字相当困难;第二:在实际应用中,对数字识别单字识别正确率的要求要比文字要苛刻得多。这是因为,数字没有上下文关系,每个单字的识别都事关重要,而且数字识别经常涉及的财会、金融领域其严格性使其准确率要求更高。此外,大批量数据处理对系统速度又有相当的要求,许多理论上很完美但速度过低的方法行不通的。因此研究高性能的数字识别算法是一个有相当的挑战性的任务。数字识别技术-7-数字识别是图像内容识别的一个应用领域,且有被识别的数较少,只有十个数字,阿拉伯数字笔画少的特点。所以手写阿拉伯数字的识别采用的方法相对于人脸识别、汉字识别等应用领域来说可以采用更
4、为灵活的方法,例如基于神经网络的BP学习算法、SVM方法等。但无论使用那种方法,都需要通过基本的图像处理技术来对图像进行预处理,才能获得这些方法的输入信息。下面我们给出一般数字识别的流程图:SVM算法SVM方法定义最优线性超平面,并把寻找最优线性超平面的算法归结为求解一个凸规划问题。进而基于Mercer核展开定理,通过非线性映射φ,把样本空间映射到一个高维乃至于无穷维的特征空间(Hilbert空间),使在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题。简单地说就是升维和线性化。升维,即是把样本向高维空间做映射
5、,一般只会增加计算的复杂性,甚至会引起“维数灾”,因而人们很少问津。但是作为分类、回归等问题来说,很可能在低维样本空间无法线性处理的样本集,在高维特征空间却可以通过一个线性超平面实现线性划分(或回归)。SVM的线性化是在变换后的高维空间中应用解线性问题的方法来进行计算。在高维特征空间中得到的是问题的线性解,但与之相对应的却是原来样本空间中问题的非线性解。一般的升维都会带来计算的复杂化。SVM方法巧妙地解决了这两个难题:由于应用了核函数的展开定理,所以根本不需要知道非线性映射的显式表达式;由于是在高维特征空间中建立线性学习机,所以与线性模型
6、相比不但几乎不增加计算的复杂性,而且在某种程度上避免了“维数灾”。这一切要归功于核的展开和计算理论。因此人们又称SVM方法为基于核的一种方法。核方法研究是比SVM更为广泛和深刻的研究领域。支持向量机原理-7-如图2-1所示为二维两类线性可分模式,图中的圈和三角分别表示两类的训练样本,H维把两类没有错误的分开的分类线,、分别为过各类样本中离分类线最近的点且平行于分类线的直线,那么和之间的距离即为两类的分类间隔。所谓最优分类线就是要求分类线不但能将两类无错误的分开,而且要使两类的分类间隔最大。前者是保证经验风险最小(为0),后者实际上是为了使
7、置信范围最小,从而使实际风险最小,这是对结构风险最小化原则的具体实现,推广到高维空间,最优分类线就成为最优超平面。Margin最优分类示意图设训练样本输入为对应的希望输出为,其中+1和-1分别代表两类的类别标识,假设分类面方程为。为使分类面对所有样本正确分类并且具备分类间隔,就要就它满足如下约束:(3-1)可以计算出,分类间隔为(3-2)现在的目标就是在服从约束式(3-4)的条件下最大化分类间隔,这可以通过最小化的方法来实现。那么,求解最优超平面问题就可以表示成如下的约束优化问题:即在条件式(3-4)的约束下,最小函数:(3-3)-7-因
8、此,满足上述条件且使最小的分类面就是最优分类面。过两类样本中离分类面最近的点且平行于最优分类面的超平面上的训练样本就是上式中等号成立的那些样本,它们叫作支持向量(supportvector)。
此文档下载收益归作者所有