欢迎来到天天文库
浏览记录
ID:51214374
大小:873.58 KB
页数:4页
时间:2020-03-21
《一种新的手写汉字生成方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、2014年9月太原大学学报Sept.2014第15卷第3期总第59期JournalofTaiyuanUniversityV01.15No.3SumNo.59文章编号:1671—5977(2014)03—0131—04一种新的手写汉字生成方法吕振伟(太原学院基础部,山西太原030032)摘要:改进的汉字统计结构模型可生成给定风格下的手写汉字。汉字被分为三个层次:笔划、部首和单字,我们首先训练样本,基于主成分分析和核主成分分析,分别建立三个层次的概率分布;然后测试样本,最后生成了与测试样本同一风格的汉字。使用HCL2000汉字数据库进行实验,实验结果验证了提出模型的有效
2、性。关键词:汉字统计结构模型;主成分分析;核主成分分析中图分类号:0159文献标识码:A0引言点的提取和汉字的匹配。由汉字结构可知,汉字由手写汉字的研究一直是模式识别领域的一个热部首或笔划表示,部首由组成它的笔划表示,而笔划点问题,已经有大量关于手写汉字识别的研究工作,由组成它的特征点表示,特征点的提取由手工来完但是手写汉字生成的研究并不多。同时,手写汉字成。我们首先是建立汉字的统计模型,这主要运用生成的研究有其一定的意义,例如可以用来构建汉主成份分析(PCA)和核主成份分析(KPCA)的字数据库等等,因此本文将研究如何生成具有一定方法,然后从统计模型中生成汉字,见
3、图1汉字生成风格的汉字的问题。的系统结构图。手写汉字生成的比较早的工作来自于文献⋯,1.1笔划的统计和生成其中把汉字分为了五层,分别为结构椭圆、简单笔设某一笔划的样本为一,,其中由个划、复合笔划、偏旁部首和单字,在对训练样本的几点组成,记=(Y,Y,⋯,Y),设1,个离散风格进行学习建立风格的模型以后,新的风⋯,为已匹配的笔划样本,运用KPCA对笔划的形格由训练样本风格的线性插值来表示,给定不同的状进行统计,可得笔划的模型:咖()=+咖,其参数就可以生成不同的风格。文献_2把汉字分为中为K维参数向量,它服从K维独立正态分布,两层,即笔划和单字,然后分别建立笔划和单字
4、的统即y—N(0,A)。是由中前k个最大特征值对计模型。每一个笔划由表示笔划的特征点的概率密应的特征向量组成的矩阵,是中心化核矩阵的度函数来表示,而每一个单字由组成单字的笔划的特征向量矩阵,西是样本均值j。联合概率密度函数来表示,但该模型太复杂,不易试有了笔划之后,我们接着讨论用笔划生成部首。验和操作。设每一个笔划都用它的外部轮廓来表示,即用包括本文也运用汉字的统计结构模型,把汉字分为该笔划的矩形来表示.设矩形对角顶点的坐标表示三层:笔划、部首和单字,然后分别建立三个层次的为(。,Y,,Y)。首先,对某一部首的样本进行匹统计模型,最后基于HCL2000汉字数据库来验
5、证模配,然后应用新模型研究组成部首的各个笔划之间型的有效性。的相对大小和位置,设部首由m个笔划组成,每个1手写汉字生成的研究笔划的矩形轮廓用(YY),i=1,⋯,m来表因为手写汉字存在大小和倾斜等问题,所以需示,每个笔划包含的相对大小和位置关系用它的要对汉字进行匹配预处理以后才可以进行汉字的生矩形轮廓和起点和终点来表示,设起点为(Y),成研究,对手写汉字进行预处理,其中包括汉字特征终点为(,Y),贝0=(l,Yl,,Y,,Y,,收稿日期:2014—06—2O作者简介:吕振伟(1982一),男,河南洛阳人,太原学院基础部讲师。·l3l·Y),用表示部首的各个笔划之间的
6、相对大小和位置关系,设部首有Z个样本,我们建立新模型:图1汉字生成系统结构圈咖()=叼++W的部首r.设训练样本集上的风格为
7、S一,
8、s,即其中为参数向量,它服从正态分布,即田一N(0,训练样本集共有/Tb个风格.设某一风格S的样本子A),其中是对角线为特征值的对角矩阵;=集中W,W:的样本数分别为k,k,其中S表示Js,(一,占)是误差变量,也可以把它看作噪声变⋯,s中的任一风格,r是由特征点表示的n维向量,量,它服从多维独立分布,且若叼>0,则~N(0,汉字W。中的笔划r记为r,W中的笔划r记为r,要11研究r和r:的关系,首先建立样本对(r,r),显然),其中
9、=∑叼,若叼=0,则=o,1≤i一l=+l共有k。×k。个这样的样本对,然后对部首r的各个≤Z,且和独立,是由特征向量组成的矩阵,这笔划和部首中笔划的相对大小和位置关系进行匹里假设它的列向量按特征值由大到小的顺序排列,配,这通过仿射变换来完成。设Ar7-r一r。,则风格是由的前k个最大特征值对应的特征向量组成.s共有kXk个样本△r,其中△r包括两部分,一部的矩阵。给定某一参数叼,可以用最/J~-.乘法,求使分式r对应笔划的差另一部分式部首中笔划的相对得下式最小的。大小和位置关系的差。P()=ll咖()一()ll对样本集△r进行PCA可得模型:Ar=/.e+b可
此文档下载收益归作者所有