24语料库技术在对外汉语学习词典编纂中的应用实践_定稿

24语料库技术在对外汉语学习词典编纂中的应用实践_定稿

ID:3913324

大小:236.40 KB

页数:5页

时间:2017-11-25

24语料库技术在对外汉语学习词典编纂中的应用实践_定稿_第1页
24语料库技术在对外汉语学习词典编纂中的应用实践_定稿_第2页
24语料库技术在对外汉语学习词典编纂中的应用实践_定稿_第3页
24语料库技术在对外汉语学习词典编纂中的应用实践_定稿_第4页
24语料库技术在对外汉语学习词典编纂中的应用实践_定稿_第5页
资源描述:

《24语料库技术在对外汉语学习词典编纂中的应用实践_定稿》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、*语料库技术在对外汉语学习词典编纂中的应用实践――以《基于语料库的HSK多功能例解字典》为例郭曙纶200030上海市华山路1954号上海交通大学国际教育学院摘要:本文结合对外汉语学习字典编纂实践探讨语料库技术在对外汉语学习词典编纂中四个方面的应用:一、确定字典字头的收字范围;二、确定字典例句的用字范围;三、限定字典释义的用字范围;四、确定字典字头的义项。关键词:语料库技术对外汉语学习字典应用郭曙纶曾在《基于语料库的HSK多功能例解字典:设想与样例》一文中提出编写《基于语料库的HSK多功能例解字典》(为行文简便,以下简称为“本字典”)的设想,本文想

2、结合此字典编纂过程中碰到的一些具体问题进行分析讨论,着重探讨语料库技术在对外汉语学习词典编纂中的应用。首先,通过语料库技术来确定字典字头的收字范围。本字典虽然是以汉语水平考试大纲字为蓝本(计划先做甲级字字典,以后再逐步扩充到汉语水平考试整个2905个汉字字典),但是为了更科学而且也更实用,有必要增加一些字。第一类是释义的需要,为了保证释义用字必须作为字头出现,即所有释义用字本身在字典中都有释义,必须把释义用字出现但不是1汉语水平考试甲级字的字增加进来;第二类是留学生生活的需要,因为汉语水平考试大纲中漏收了留学生生活中的部分常用字,如“签、证”等;

3、第三类是构字构词的需要,比如“巴”,本身虽然不是常用字,但是它可以构成“把”“吧”和“爸”等常用字。由于时间的关系,在我们目前的实际编纂中,后两类字暂时还没有增加进来,因为这两类字牵涉到比较多的理论与实践问题,需要深入研究才能解决,不是在短时间内会有确定答案的。第一类字增加的数目是44个,以后随着字头的增加应该还会增加一些。因为随着字头的增加释义用到的汉字会略有增加,尤其是某些特殊的字,必须用某些特定的字来解释,比如“钢”必须用“铁”来解释才更简明一些。但是增加的比例肯定会大大缩小。这是因为一方面这些释义用字在普通文本中虽不是很高,但也不是太低,

4、所以当字典规模扩大时,第一类字的数量并不随之同步增加,比如本字典这次增加的44个字中仅有一个“叹”字是丙级字,其余43个都是乙级字。这样,这些增加的释义用字其实在扩大字典收字范围后就属于字典本身应该收的收字范围。另一方面释义用字本身的数量也有限制,并不会随着字头的增加而同步增加。其次,通过语料库技术来确定字典例句的用字范围。要确保例句本身不比释义用字更难,至少不能出现字典中没有作为字头出现的字。借助语料库技术可以很好地做到这一点。我们先制作了一个只由800个甲级字构成的语料库,然后再从中去搜索例句。这样就保证了例句用字不会超出本字典中的字头字。当

5、然在实际操作中不可能构造一个刚好只由800个甲级字构成的语料库,因为有些汉字只与某些汉字同现,一旦与之同现的汉字不是甲级字,那*郭曙纶(1967-),男,博士,上海交通大学国际教育学院副教授,汉语言研究所副所长,主要研究方向为计算语言学、对外汉语教学。本文得到上海交通大学国际教育学院科研基金课题“基于语料库的HSK多功能例解字典”的经费资助。本文在第二届对外汉语学习词典学国际研讨会(2006.7中国人民大学)上宣读过,会后根据编辑要求进行了较大的补充修改。1释义用字的情况与普通文本的用字情况不同,即使是完全按照字频统计得到的常用汉字与释义用字中的

6、常用字也是不同的,比如“表、示、指”等在释义用字中频率很高,在普通文本中并不高,而“某、量、形”等非汉语水平考试甲级字在释义用字中频率也很高,像这样的字必须增加进来作为字头出现。1么这些汉字就不可能出现在一个只由800个甲级字构成的语料库中。另外有些汉字虽然出现,但是其出现的次数可能会很少,而单独作为词出现的次数则更少,可能只有一两次或根本就没有。比如“袜”字,出现了2次,但都是以“袜子”一词出现的,没有一次是单独作为词出现的,这样本字典只有把“袜”作为语素处理,并列出相应的例词“袜子”。再比如“钢”字,出现了3次,但是其中有一次是以“钢板”一词

7、出现的,单独出现只有2次,这样本字典只能列出2个例句。有些汉字虽然出现次数很多,但是它的某个义项用法的例句可能很少。比如“角”字,在我们的语料库中出现了115次,但是单独作为名词使用的例句却很少,只有1个例句――再走进一家书店,一进门,迎着我的是“新书之角”。这个例句还可能有人不认为是单独作为名词使用的。因此,本字典中所能给出的来源于实际语料中的例句也就只有一两句,甚至没有。这显然是语料库的一个不足。为了弥补语料库的这个不足,我们在考虑酌情自编个别例句。再次,通过语料库技术来保证字典的释义用字控制在一定的范围之内。对此可以从两个方面来看,一方面是

8、释义时尽量使用简单常用的汉字,不随便使用多个意思差不多的同义词,而坚持只使用其中最简单常用的一个词,如“衣服、衣裳、服装”等就只使用“衣

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。