欢迎来到天天文库
浏览记录
ID:5450770
大小:4.32 MB
页数:88页
时间:2017-12-12
《无字库智能造字系统在计算机上的实现_硕士学位论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文无字库智能造字系统在计算机上的实现作者姓名学科专业模式识别与智能系统指导教师所在学院自动化科学与工程学院论文提交日期TherealizationofChinesecharacterintelligentformationsystemwithoutfontoncomputerADissertationSubmittedfortheDegreeofMasterCandidate:HuangJianSupervisor:Prof.PiYouguoSouthChinaUniversityofTechnologyGuangzhou,China华南理工大学硕士学位论文无字库智能造字系统
2、在计算机上的实现作者姓名:指导教师姓名、职称:申请学位级别:工学硕士学科专业名称:模式识别与智能系统研究方向:图像处理与模式识别论文提交日期:年月日论文答辩日期:年月日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:委员:华南理工大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:日期:年月日学位论文版权使用授权书本学
3、位论文作者完全了解学校有关保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅(除在保密期内的保密论文外);学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本人电子文档的内容和纸质论文的内容相一致。本学位论文属于:□保密,在年解密后适用本授权书。□不保密,同意在校园网上发布,供校内师生和与学校有共享协议的单位浏览。(请在以上相应方框内打“√”)作者签名:日期:指导教师签名:日期:摘要到目前为止,中文信息处理系统都采用字库方式,
4、GB18030-2005是目前国家发布的包含汉字数量最大的字符集标准,基本满足了汉字信息化的需要。但是汉字是不断变化发展的,字库总是很难跟上汉字的变化发展。每增加一个汉字,就需要增加相应的编码来表示这个汉字,字库也要相应地进行更新,不利于中文信息的交流和传播,不能满足整个社会的各个领域的应用需求。因此很难为汉字信息化建立长期稳定和规模合理的字库标准。此外,字库方式还有不能很好地传承汉字文明、不符合汉字认知机理、与教育脱节等弊端。对这些问题如果能找到一种一劳永逸的解决办法,将会给汉字信息化作出重大贡献。文献[23]根据认知心理学原型匹配理论,将计算机比作人脑,提出了无字库智能造字的概念,
5、明确了智能造字系统中汉字的编码方式和造字方式,完全有别于传统的从字库选字方式。作者进一步的研究提出了系统的结构框架,由网格获取汉字的结构知识,汉字编码使用结构加基元的表示方式。由基元库、知识库和智能组字模块等单元构成无字库智能造字系统。本文的主要内容是基于上述理论实现智能造字系统,包括:(1)通过对组成智能造字系统结构框架的各个部分的详细阐述,展示了智能造字的原理。通过分析汉字与基元的关系,以当前广泛使用GB18030-2005字符集为实验对象,把汉字部首和汉字部件作为基元的主要来源,实验研究和分析后,最终提取出1085个汉字基元和18种汉字结构。所有汉字都用“汉字结构+基元”的方式来
6、进行编码。仿射变换是系统组字的重要技术手段,基元之间通过仿射变换拼合起来组成汉字。仿射变换参数通过SIFT算法获取。智能造字的知识库由汉字的编码知识、结构知识、基元知识以及基元的映射知识组成,是智能造字系统的数据基础。2.把智能造字系统划分为三个模块:输入模块,造字模块和显示模块。对各个模块编写了详细的功能需求,根据模块的数据特点精心设计了数据结构,并在算法效率上进行了理论分析。输入模块实现了微软windows系统的IME接口,既可以作为智能造字系统的输入,也可以作为一个独立的系统输入法。造字模块使用了编码校验算法对输入的编码进行了检查,再通过解析程序分离结构编码和基元编码,然后使用仿
7、射变换组字。显示模块使用了编码转换算法和排版算法,在用户界面设计上借鉴了windows记事本。3.在windowsIX平台上运行智能造字系统,记录系统加载知识库等数据占用的内存情况。测试在系统中各级结构的汉字的输入情况。测试了系统显示界面的排版显示效果。关键词:输入法;汉字基元;汉字结构;排版算法IXAbstractSofar,allChineseinformationlizationprocessingsystemsareimplemente
此文档下载收益归作者所有