欢迎来到天天文库
浏览记录
ID:52125430
大小:636.00 KB
页数:21页
时间:2020-04-01
《智能造字中的基元识别.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、智能造字中的基元识别报告人:黄坚专业:模式识别一.课题的目的和意义1.当前汉字的显示主要使用字库的方式优点:数据量少,使用简单,字体美观基本满足了信息发展的需要缺点:不符合汉字识字的认知规律不能很好地传承汉字文明很难建立稳定的标准不能满足社会各个领域的特殊要求。一.课题的目的和意义2.课题的背景上世纪九十年代,周浩华提出用生成笔画进而生成汉字的研究,得出了可以不用字库进行造字的结论。皮佑国根据认知心理学原型认证机理提出了智能造字的概念,以汉字中的偏旁部首为基础选取汉字的基元,然后象拼音文字一样用基元拼合生成汉字,采用智能造字方式取代字库方式。一.课题的目的和意义3.课题的目的在智能造字
2、过程中,对汉字进行编码是一项很基础、很重要但又是很枯燥乏味的工作。由于目前这项工作主要由手工来完成,所以很费时,又容易出错,而且很难查错,给后期的参数获取工作带来很大的麻烦。此外,由于每个人的认识水平不一,同一个字会有不同的结构划分,很难形成一个一致的认识。基元识别是实现自动编码的最重要环节。一.课题的目的和意义4.课题的意义目前的智能造字系统中,虽然已经可以构造出大部分的汉字,但是,这个造字平台的大部分工作都得手工来完成,并没有完全实现智能造字。其中,映射知识的获取已经基本上可以实现自动获取了,只要再能实现结构的自动识别,那么整个造字流程都可以由计算机来完成而不需我们的干预,从而真正
3、实现智能造字。二.简易文献综述字符识别方法目前主要有基于模板匹配算法和基于人工神经网络算法。基于模板匹配算法首先将分割后的字符二值化,并将其尺寸大小缩放为字符数据库中模板的大小,然后与所有的模板进行匹配,最后选最佳匹配作为结果。基于人工神经元网络的算法有两种:一种是先对待识别字符进行特征提取,然后用所获得特征来训练神经网络分配器;另一种方法是直接把待处理图像输入网络,由网络自动实现特征提取直至识别出结果。三.课题的研究内容,具体工作1.智能造字理论基础三.课题的研究内容,具体工作1.智能造字理论基础知识库用来存放汉字的结构编码知识、基元编码知识以及基元的映射知识,在知识库中,采用了层次
4、语义网络的方式保存智能造字中的汉字结构和基元知识,根据汉字分层特点提取组成基本语义关系,然后把语义关系汇集,从而构建整个汉字集的语义网络作为知识库。推理机根据用户的输入,利用一定的规则限制和造字规律,结合知识库中的知识,准确检测编码输入的正确与否,并进一步推理出汉字编码,从而帮助用户方便快捷地完成汉字编码的输入工作。三.课题的研究内容,具体工作1.智能造字理论基础解释机制分析当前输入的编码,分离出该编码对应汉字的结构和基元。推理机根据用户的输入,利用一定的规则限制和造字规律,结合知识库中的知识,准确检测编码输入的正确与否,并进一步推理出汉字编码,从而帮助用户方便快捷地完成汉字编码的输入
5、工作。三.课题的研究内容,具体工作1.智能造字理论基础拼合组字根据解释机制分离的汉字结构和基元,从基元库中调用相应的基元图片,从知识库中查找相应的映射知识,然后把基元图片经映射变换后顺序拼合从而生成汉字。用户界面完成与用户的交互,如输入,保存等整个智能造字系统最基础部分是知识库和基元库。三.课题的研究内容,具体工作2.智能造字工作汇总基元库的提取汉字的编码映射知识的获取造字平台的软件实现三.课题的研究内容,具体工作3.本课题的工作把汉字图像根据连通区域进行分割,把所有独立的部分分离出来把各个独立部分按照一定的方法进行组合,确保所有的组合都是一个基元对组合好的部分进行基元识别四.技术路线
6、、方法第一步:连通区域获取算法算法步骤:1.输入汉字图片。2.从左到右,从上到下扫描图片,如果能找到黑点,跳到第3步,如果找不到黑点,跳到第6步。3.保存当前黑点的坐标值,并且在该图像上把这一黑点改成白点。4.依次检验该黑点左边,左上,上边,右上,右边,右下,下边左下的点,如果该点是黑点,返回到第3步,如果找不到黑点,程序继续执行到第4步。5.创建一张全白的图片,大小和输入图像一样,然后根据第3步保存的坐标把相应的点设置为黑色,保存图像后返回第2步。6.程序退出。四.技术路线、方法第二步:连通区域组合把第一步分离出的各连通区域进行组合,假设第一步的汉字图像输入为“吉”字的输入,那么第一
7、步的算法将会输出基元“士”和“口”的图片,那么组合后会最终得到三张图片,除了这两张外,还有组合产生的“吉”四.技术路线、方法第三步:对组合进行分组将所有生成的图片进行分组,假设第一部分有三个连通区域输出,记为a1,a2,a3,那么我们这样进行分组{a1,a2,a3},{a1a2,a3},{a1a3,a2},{a1,a2a3},{a1a2a3},其中a1a2表示两个区域组合成一张图像。如果输入的是“吉”,那么可以这样分组{“士”,“口”},{“吉
此文档下载收益归作者所有