欢迎来到天天文库
浏览记录
ID:30642753
大小:18.33 KB
页数:6页
时间:2019-01-02
《基于非负矩阵分解方法的笔迹鉴别(1)》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果基于非负矩阵分解方法的笔迹鉴别(1)摘要笔迹鉴别在模式识别的发展和应用中都有着重要的意义。运用非负矩阵分解算法(NMF)对中文单字提取笔迹特征,并利用训练样本和测试样本之间角度的相关性和K近邻算法对笔迹进行分类。结果表明,NMF算法其分类正确率明显高于主分量分析(PCA)方法。这说明了NMF算法在手写笔迹鉴别分析中的潜力。关键字笔迹鉴别;非负矩阵分解;K近邻1引言随着信息数字化的飞速发
2、展,手写体笔迹鉴别[4,5]成为计算机视觉和模式识别领域中活跃的研究课题。笔迹是一种相当稳定的行为特征,不同的人有不同的笔迹,且手写笔迹易于获取。基于其种种优点,笔迹鉴别[6,8]广泛的应用于政府部门,金融,法律等领域。文献专家可以鉴别出笔迹的真伪,但计算机自动提取笔迹特征,并鉴别其真伪,特别是对少量的笔迹仍然有一定的难度。1999年Lee和Seung在Nature上发表了非负矩阵分解算法[1,2]。非负矩阵分解(Non-negativeMatrixFactorization)是目前国际上提出的一种新的矩阵分解方法,
3、即NMF是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。非负矩阵分解方法提供了一种新的矩阵分解思路:其分解算法实现简便,分解的结果中没有负值,矩阵具有可解释性和明确的物理意义,而且占用的存储空间较少。课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果本文对每个人书写的少量笔迹进行鉴别。为了更好的提取笔迹特征,首次引入
4、非负矩阵分解算法,并应用欧氏距离、Cos距离以及K近邻对测试样本进行分类。将分类结果与主成分分析算法得到的结果进行比较,得出结论。非负矩阵分解理论非负矩阵分解[3]问题可描述为:已知一个非负矩阵V,要找出非负的n*r矩阵W和非负的n*m矩阵H,使V=WH。由上述可知,非负矩阵分解是用非负性约束来获取数据表示的一种方法。非负性是对矩阵分解非常有效的条件限制,它导致了对于原始数据的基于部分的表示形式,即样本数据只允许加性和非负的组合。算法所得到的非负基向量组具有一定的线性无关性和稀疏性,从而使得其对原始数据的特征及结构具
5、有相当的表达能力。这使得该算法具有很强的应用背景。NMF的求解是一个最优化问题,可以用迭代方法求解W和H。NMF问题的目标函数有很多种,最常用的两种目标函数为KL散度和欧几里德距离。KL散度计算公式如下:(2-1)其中,,当且仅当A=B时才等于0。欧几里德距离计算公式如下:(2-2)其中,,当且仅当A=B时才等于0,该问题的求解过程如下:(1)初始化W、H矩阵为非负随即矩阵;(2)按公式(2-3)对W、H进行迭代运算,其中W和H是同步迭代,也就是说,完成W中的一行更新之后,立即更新H中相应的列;(2-3)(3)根据公
6、式(2-2)计算V和WH之间的散度,如果大于预定订值,返回(2)继续运算;否则停止,运算结束。3课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果K近邻和Cos距离k近邻[6]取未知样本x的k个近邻,看这k个近邻中多数属于哪一类,就把x归为哪一类。具体说就是在N个已知样本中,找出x的k个近邻。设这N个样本中,来自w1类的样本
7、有N1个,来自w2类的有N2个,…,来自wc类的有Nc个,若k1,k2,...,kc分别是k个近邻中属于几类的样本,则我们可以定义判别函数为:(3-1)决策规则为:若则决策。3.Cos距离[3]Cos距离是指向量之间角度的相关相,用公式表示为:(3-2)4过程及其结果实验过程作者用20个人的中文笔迹进行测试,包含每人30共600份手写汉字的笔迹图像,按彩色模式被扫描入计算机。其中15份/人作为训练样本,其余的15份/人作为测试样本。即600份笔迹图像中,300份为训练样本,300份测试样本,其中部分样本见图1。通过随
8、机变换训练样本和测试样本,重复10次这样的实验。实验步骤如下:图像预处理:首先去除所有的笔迹图像外边缘的空白,并将其归一化为20*20的256色灰度jpg图像。特征提取:用NMF100算法提取笔迹图像的特征,将W、H初始化为非负的正态分布矩阵,分别取r=20,25,30,35,40,45,50,100进行50次迭代得到图像特征空间。课题份量和难
此文档下载收益归作者所有