欢迎来到天天文库
浏览记录
ID:9721543
大小:58.50 KB
页数:9页
时间:2018-05-06
《基于主成分分析的手写体数字识别方法探究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、基于主成分分析的手写体数字识别方法探究 0.引言 随着计算机技术的发展,人类对模式识别技术提出了更高的要求,特别是对于纸质的手写材料,如印刷材料、手稿等,计算机自动识别输入成为必须的研究课题。手写体数字识别在财税、金融、邮寄分类、数据统计等领域有着广阔的应用前景。在手写体数字识别领域中,由于同一数字的形状数不胜数,对此不能直接根据数字形状进行识别,在识别前需要进行特征提取。特征提取质量的好坏必然影响到字符的识别。针对如何从模式中提取最有效的鉴别特征,学者们已经提出了多种方法。其中,主成分分析(Pri
2、ncipalponentAnalysis,PCA)被认为是一种经典的特征提取方法。它的目标是在低维子空间中表示高维数据,使得在最小误差平方和的意义下,低维表示能够较好地描述原始数据。正因为它在理论和实践中的简洁易行,同时能减小冗余信息和计算量,所以在对象识别和应用在得到了广泛的应用。然而在手写识别系统领域存在一定的问题阻碍着实现特征提取。如每个书写者的书写风格、外来干扰等。PCA方法由于在对外来干扰和数据描述的有限性的限制下,很难精确地描述那些复杂的非线性的手写体数字特征。为了消除这些缺点,提出改进的P
3、CA方法,即基于距离核的PCA设计一个高效的手写数字识别方法。距离核的主成分分析不仅可以清晰地描述高斯分布的数据,而且可以很好地描述非高斯分布数据。首先,针对PCA的不足,提出对其的改进方法-距离核PCA方法并描述其方法的原理。然后,把改进方法创新性应用在手写体数字识别领域。最后,使用支持向量机作为分类器,在MNIST手写体数据库中验证该算法的可行性与识别率。 1.基于距离核的主成分分析 主成分分析(PrincipalponentAnalysis,PCA)是一种经典的特征提取方法,它于K-L变换。P
4、CA通过计算样本协方差矩阵的本征矢量线性地将输入空间映射为低维的特征空间,并且得到的新特征之间互不相关。作为一种线性方法,PCA已在多个领域得到了广泛的应用。但对于真实图像中存着的复杂的非线性变化,如光照、尺度、扭曲等,该方法不能对其进行充分地描述。针对这个问题,提出核主成分分析方法。 1.1核主成分分析算法描述 核主成分分析(KernelPCA,KPCA),主要思想就是把核方法和线性主成分分析方法结合起来,首先利用一个非线性映射将原始特征空间中的数据映射到高维特征空间中,然后在高维特征空间中进行主
5、成分分析。其基本原理如下:给定一组训练样本x1,x2,,xl,用(xk)表示输入空间,相应的映射为Φ,核函数通过映射Φ将隐式的实现点x到F的映射,投影后的数据集变为{Φ(x1),Φ(x2),,Φ(xk)},并且由此映射而得的特征空间中的数据满足中心化的条件即:Σlk=1Φ(xk)=0(1)则特征空间中的协方差矩阵可表示为:R=1lΣlj=1Φ(xj)Φ(xj)T(2) 现求μ的特征值λ≥0
6、和特征向量:μ∈F{0},Rμ=λμ.由于此时的数据集为Φ(x1),Φ(x2),,Φ(xl)},因此可以得到下式:(Φ(xk)Rμ)=λ(Φ(xi)μ),k=1,,l(3) 由于所有的特征向量可表示为Φ(x1),Φ(x2),,Φ(xl)的线性张成,即:μ=Σli=1αiΦ(xi)(4)其中,αi(i=1,,l)为系数。则
7、有:Σli=1αi(Σlj=1(Φ(xj)Φ(xj)Φ(xk)Φ(xi)))=λΣii=1(Φ(xk)Φ(xi))(5)定义一个ll核函K=(Φ(xi)Φ(xj))=K(xi,xj),得到紧凑矩阵lλKα=K2α,简化如下式:lλα=Kα(6) 令λ1≤λ2≤&l
8、e;λl,其中λk,k=1,,l为核矩阵K的特征值:λ*i=lλi,i=1,,l(7) λi是协方差矩阵R的第i个特征值,所以采用标准形式:λ*α=Kα(8) 求解式(8)得到非零特征值和特征向量,求解协方差矩阵R并将其标准化,得到:(μkμk)=1,k=1,,p(9) 假定特征值K是降序排列,通过计算选择第一个特征
此文档下载收益归作者所有