基于中介语料库的汉字偏误标记研究.doc

基于中介语料库的汉字偏误标记研究.doc

ID:50520038

大小:64.00 KB

页数:5页

时间:2020-03-10

基于中介语料库的汉字偏误标记研究.doc_第1页
基于中介语料库的汉字偏误标记研究.doc_第2页
基于中介语料库的汉字偏误标记研究.doc_第3页
基于中介语料库的汉字偏误标记研究.doc_第4页
基于中介语料库的汉字偏误标记研究.doc_第5页
资源描述:

《基于中介语料库的汉字偏误标记研究.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于中介语料库的汉字偏误标记研究摘要:本文就汉字偏误在中介语料库中标记的问题进行探讨,通过对儿人区留学生主耍产生的偏误进行分类总结、分列出现有的一些对汉字偏误的标记、结合留学牛大致的偏误类型结合各类标记的优缺点提出意见。关键词:中介语料库;汉字偏误;汉字偏误标记1.以欧洲、日木和东南亚华裔留学生为代表的汉字偏误类型根据四川外语学院留学生部的扫描资料进行归纳、总结,列举以下三大板块留学生的偏误类型,以便根据其偏误类型做出具体的标记模式。1.1欧美学生的汉字偏误类型欧美学生偏误类型主要体现在由于汉字的表意文字和欧美的拼音文字的巨大差界造成的

2、欧美学生在学习汉字时常常将横、竖写成弧状,化曲为直。通过对欧美留学生产生的偏误类型进行归纳总结,大致有如下几种:一是用本国的字母字形来代替汉字的某些汉字的笔画和部件以及部件异位的情况;二是书写汉字时结构残缺不全。欧美留学生常常分不清楚具体的结构,把左右结构的字拆分成了两个字,上中下结构的字拆成了两到三个字。例如:“标”,他们写成了“木”和“示”等等;三是误加笔画或者遗漏笔画,尤其是笔画稍微复杂点的字,欧美留学生在书写的时候经常容易岀现错误。例如“真”字中间的三横写成两横;四是形似字书写的偏误,即部件变形。例如:“矛”和“予”;五是同音字

3、或近似音字间的替换。例如「间”和“见”、“管”和“关”;六是笔顺问题。英语的书写没有笔顺的要求,他们受到母语的影响,往往通过“画”的方式进行书写。1.2日本留学生的汉字偏误类型造成日本留学生汉字偏误的原因大致是:繁简的差异,同一个文字在口语和中文中表达意思不同,相似的字之间有很细微的笔画差异。根据语料库的统计,“为、时、个、亲、现、说、长、后、认、题”等在口语书写符号中都以繁体形式出现,导致其学习汉字错误率排在前20位。中日的汉字有一部分是来源于相同的汉字转化,但是转化的方式却不同,这也就导致了FI本学生在书写的时候易出现偏误。比如:这

4、样的“样”写成了“?印保?“讲话”写成了“?V?”,“因?掠万?)我迟到了,所以被老??(师)骂”。汉字中形似字迹很多,这也导致口本留学生在书写汉字时往往忽略细小的差异造成偏误。如:“只有两天,家里人有事儿不敢(左边的横折少写一横或者一折)去”。中文与口文有很多字和书写形式都很像。所以在书写时当中口双方某个常用汉字形状相近但字形差异不止一处时,往往容易造成偏误。如:把“及时”写成“急时”;把“场合”写成了“合”1.3东南亚华裔留学生的汉字偏误类型东南亚留学生他们的偏误类型更加复朵多样且各类偏误的数量分布极不均衡。具体的偏误类型大致分为以

5、下一系列情况:部件错写或错用;笔画增减;音形皆近偏误;笔形错误和笔画组合关系错误;字形相近;声韵母均同;汉字所无笔画;不规范字;部件增减;部件镜像位置改变;韵母相同;声同;受到上下文或者方言的影响。各个地区的留学生产生的偏误都有所差异,如何能利用这些差异,并总结出一定的规律用于实践教学也是中介语料库的意义所在。我们希望通过语料库屮记录的相关资料,能顺利、便捷的找出某一类型的偏误,并有与之对应的实例及出现偏误的学者的相关背景资料。如果能通过计算机直接检索到欧美或者日韩学生的汉字偏误类型也将会对汉字教学起到重要的作用。所以统一而口规范的标记

6、能将中介语料库里面收录的真实材料迅速的检索出来并用于教学。2.以北京语言大学屮介语语料库为例,讨论其标记汉字偏误的方法北语的中介语语料库相对较为完善,并已经创制出一套系统的偏误标记方法。该语料库语料均记录有作者姓名、性别、年龄、国别、是否华裔、第一语言、文化程度、所学主要教材、语料类别、写作时间、提供者等23项属性。“汉语中介语料库系统”对抽样语料按照字、词、句、篇等不同层次进行了加工和标注,对语料样本的非规范形式做出索引标记,并登录其相应的规范形式。用这种方式建立起來的语料库可以直接用电脑进行索引,并且信息的涵盖量比较大。XML与语言

7、错误标注是其具体的标注错误方式。利用XML提供的标记功能可以对中介语语料库中的错误进行标注。语料库资料录入的都是来自真实的留学生资料,在制定程序前就必须对留学生的汉字偏误类型进行分类,比如是属于笔画缺失、增添还是结构错误等。在处理好之后就可以运用电脑软件对其进行标记了。如:“我字习汉语一年了”,常用的XML标注方法「我/r字/n习/vg汉语/nz-/m年/q了/y。/叭”里面是错误所属的大类,并且要成对标记,内容为“错误修正/错误小类”。这种XML标注在理论上有很强的实用性,但是标注过程极为复杂并且有时不一定能够准确找到偏误类型。这种标

8、注法使用起来也有一定的I木I难,可能会出现看不懂的情况。要熟练的运用这种标注法必须准确的记住相应字母代表的意义,比如nz、y、vg具体代表什么意思,这样就在无形中减少了利用其相关标记符号和知识的便捷性。但是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。