基于语料库的汉语字词相关性研究

基于语料库的汉语字词相关性研究

ID:23895796

大小:62.01 KB

页数:9页

时间:2018-11-11

基于语料库的汉语字词相关性研究_第1页
基于语料库的汉语字词相关性研究_第2页
基于语料库的汉语字词相关性研究_第3页
基于语料库的汉语字词相关性研究_第4页
基于语料库的汉语字词相关性研究_第5页
资源描述:

《基于语料库的汉语字词相关性研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于语料库的汉语字词相关性研究盛玉麒  一、概说  文字是记录语言的书面符号系统。"字母文字系统"通过记录语音实现对语言的记录。字母本身就成为一个个的记音符号,被语言的音位系统赋予了"音"的属性。汉字是世界上独特的文字,它在记录汉语的同时,不但使汉语由"口-耳"交际的符号系统转换成为"眼-口-耳"信息交换的符号系统,而且使汉字本身在动态的系统中被赋予了语言的属性。绝大多数汉字是一个个单音节的语素或词。  由于汉字记录汉语时不实行"分词连写",所以,在书面上,汉语的"字"、"语素"与"词"特别是"单音节词"以及词与词组之间存在界限不清的复杂关系。"汉字本位"的中国传统语言学与

2、"词语本位"的现代语言学分别从两个不同的角度和界面入手,试图解决汉语结构规律,都分别遇到了不同的难题:传统语言学离开了语言中的"词儿"几乎无法深入讨论"词法"、"句法"等一系列语言学问题,无法精确描写和理解汉语,尤其无法进行智能化中文信息处理的研究;现代语言学尽管从语言中最小的使用单位"词儿"出发,可以架构出严整的理论体系和缜密的组织规律,但是,在汉语中关于词的"切分"、"定类"等基础研究方面,又遇到许多二难的障碍。这个基本问题不解决,进一步的理论研究几乎是"沙上建塔"。  如果抛开汉字,单纯从"词"的音义属性出发,能否找到解决汉语结构规律的密钥呢?虽然不能排除这种可能性,

3、但是实践起来很难。因为即使使用一套音标符号把一个一个的音节或词语都记录了下来,这套音标符号仍然不是"文字系统",仍然与实用的书面符号系统不同。对于使用汉语汉字的人来说,已经形成了"汉字式"认知模式,甚至在口语中也时常少不了像"字眼儿"、"咬字吐词"、"字正腔圆"等以字代词、以词代字的说法。因此,汉语规律的研究无法离开或摆脱汉字,也不能离开或脱离词语。  本文试图将二者结合起来,从一个新的角度和方法研究书面汉语的组织结构规律,以适应汉语教学、汉语理解和信息处理技术的需要。 基于语料库的汉语字词相关性研究盛玉麒  一、概说  文字是记录语言的书面符号系统。"字母文字系统"通过记

4、录语音实现对语言的记录。字母本身就成为一个个的记音符号,被语言的音位系统赋予了"音"的属性。汉字是世界上独特的文字,它在记录汉语的同时,不但使汉语由"口-耳"交际的符号系统转换成为"眼-口-耳"信息交换的符号系统,而且使汉字本身在动态的系统中被赋予了语言的属性。绝大多数汉字是一个个单音节的语素或词。  由于汉字记录汉语时不实行"分词连写",所以,在书面上,汉语的"字"、"语素"与"词"特别是"单音节词"以及词与词组之间存在界限不清的复杂关系。"汉字本位"的中国传统语言学与"词语本位"的现代语言学分别从两个不同的角度和界面入手,试图解决汉语结构规律,都分别遇到了不同的难题:传

5、统语言学离开了语言中的"词儿"几乎无法深入讨论"词法"、"句法"等一系列语言学问题,无法精确描写和理解汉语,尤其无法进行智能化中文信息处理的研究;现代语言学尽管从语言中最小的使用单位"词儿"出发,可以架构出严整的理论体系和缜密的组织规律,但是,在汉语中关于词的"切分"、"定类"等基础研究方面,又遇到许多二难的障碍。这个基本问题不解决,进一步的理论研究几乎是"沙上建塔"。  如果抛开汉字,单纯从"词"的音义属性出发,能否找到解决汉语结构规律的密钥呢?虽然不能排除这种可能性,但是实践起来很难。因为即使使用一套音标符号把一个一个的音节或词语都记录了下来,这套音标符号仍然不是"文字

6、系统",仍然与实用的书面符号系统不同。对于使用汉语汉字的人来说,已经形成了"汉字式"认知模式,甚至在口语中也时常少不了像"字眼儿"、"咬字吐词"、"字正腔圆"等以字代词、以词代字的说法。因此,汉语规律的研究无法离开或摆脱汉字,也不能离开或脱离词语。  本文试图将二者结合起来,从一个新的角度和方法研究书面汉语的组织结构规律,以适应汉语教学、汉语理解和信息处理技术的需要。 从书面上看,汉语的"词儿"就是由一个或几个单字所组成的。汉语语法无非是"组字成词"和"谴词造句"的方法。语言本身是一个"习惯的系统"。其中许多"规律"包括词语的创造原则与构成方式等都是"约定俗成"的。这个"约

7、定俗成"既有有章可循的规律或道理,又有许多无章可循的、既没规律又无道理的"例外",如一些强制性的"积非成是"的习惯或语言事实。以动词"吃"为例,既可以接所有能够用嘴吃的东西、也可以接属于"吞咽到胃里"东西、甚至可以接根本与"嘴"咀嚼无关的东西或事情:像"吃饭"、"吃烟"、"吃醋"、"吃闷棍"、"吃官司"、"吃回扣"、"吃这一?quot;,甚至"吃床腿"等等。显然,单纯从意义搭配或语法关系的角度,有时很难解决这些活跃在日常语言中的词汇现象。  如果我们从数理语言学的角度,运用数理统计的方法,就会发现,在书面汉语的语言

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。