欢迎来到天天文库
浏览记录
ID:35051440
大小:159.50 KB
页数:7页
时间:2019-03-17
《浅析辞书编纂中语料库数据研究原则》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、浅析辞书编纂中语料库数据分析的原则-汉语言文学浅析辞书编纂中语料库数据分析的原则唐萌摘 要:随着计算机技术的发展,语料库技术作为一种更为科学的、经济的手段,被越来越多地引入到辞书编纂领域。在汉语辞书释义方面的语料库技术运用,不仅能提高辞书释义的客观性、准确性,还能进一步增强汉语辞书编纂的科学性。语料库的出现在为我们提供方便的同时,也带来了一些问题。为了确保辞书编纂中语料分析的合理性、科学性,我们在进行数据分析时,应把握真实性、穷尽性、有效性和定量分析与定性分析相结合的原则。关键词:辞书编纂语料库原则一、引言自20世纪80年代以来,随着计算机应用技术的不断发展,以语料库为基
2、础的语言学研究在语言学和计算机科学领域中都取得了丰硕成果,语料库的建设也受到了世界各国的广泛重视。近年来,语料库规模的扩大及配套的检索技术的完善,为辞书编纂带来了新的思路和角度。大量电子文本的出现,不仅给辞书编纂带来了大量的信息来源,使我们节省了很多人力、物力,也给读者提供了一种新的更加快捷的语料查找渠道,便于人们进行有关方面的学习和研究。但与此同时,为了确保辞书编纂中语料分析的合理性、科学性,我们在进行数据分析时,还应把握真实性、穷尽性、有效性和定性与定量相结合的原则。二、真实性7/7所谓真实性,主要是指语料的真实性和数据的真实性。在我们进行数据分析前,首先要确保的是语
3、料库中语料的真实性。语料库中的语料应该是在现实生活中真实应用于自然语言交际的真实话语和真实文本材料。语料库素材的构成和取样范围要按照明确清晰的语言学原则和严谨科学的语料库设计宗旨,通过科学的实际调查和合理的数据统计来完成,而并不是由随意拼凑的或随机抽取的某一部分语言材料堆积而成。因此,我们在进行数据分析时常常选择一些规模较大语料库,它们都是国家或者有实力的大学设计和建设的,从而使我们能方便快捷地找到大量真实可靠的数据。例如:国外的语料库有布朗语料库、伦敦—隆德口头英语语料库、国际英语语料库等,国内的语料库有现代汉语语料库、北京大学计算语言学研究所开发的人民日报语料库等。这
4、些大型的语料库为我们提供了大量的真实可靠的语料,这也为我们下一步进行数据统计的真实性奠定了坚实的基础。其次,我们还要保证统计数据的真实性。我们从语料库中筛选出需要的语料,然后就要进行相关方面的数据统计,切记要一一进行查找,不能偷懒进行类推或者大致推算。因为每一个数据都有自身的独特性,它所具有的某些性质也许只是这一个例子所表现出的特征,并不能代表全部。例如,我们要对“给力”这个词条进行调查研究,在资料考证过程中我们发现“给力”在给定的语料库2012年的语料使用中频率较高,但是我们不能简单推测在2013年的语料中它也大量使用,具体它的使用频率是多少,是否在2013年的语料中同
5、样有较高的使用率,还要认真地在2013年的语料中进行实际的考察和统计才能得出真实可信的定论。如果我们的调查失去了真实性,那么也就失去了调查的意义,就更不要谈语言研究的价值了。因此,真实性是辞书编纂中语料库数据分析的首要原则。我们要确保数据统计的真实性,做好数据分析的基础工作。三、穷尽性7/7在确保真实性的基础上,我们还要保证数据分析的穷尽性。所谓穷尽性,就是我们在检索语料的过程中,要把语料库中关于调查内容的语料全部检索一遍,应该将含有检索条目的语例尽可能完全地收录进来。这样我们不仅可以全面了解词语的使用情况,而且还能为进一步的全面分析打好基础。如果搜集的语料没有穷尽所调查
6、的使用领域,就会导致分析结果有一定程度的偏差,语料抽样比例越小,最终所得到的的结果偏差就越大。比如说我们现在要对“问讯”这个词条进行考察,通过在语料中的检索我们发现,它通常有三层意思:作动词,表示“询问”;作动词,表示“讯问,审问”;作动词,带有书名面色彩,表示“问候”。其中在含有“问讯”一词的153则语料中,还有6个语例是表示僧尼跟人应酬时合十招呼——也叫“打问讯”。这一用法虽然只占到总数的4%,但如果在调查过程中忽略了这6个用法,就不仅没有真实地反映语言在现实生活中的应用,而且在读者遇到此类用法时也查无依据,还给语言的发展带来不必要的麻烦。语料库数据分析区别于传统分析
7、的最大特点,就是它建立在大规模真实语料数据的基础之上,分析的方法较之过去更加客观全面,分析的结果较之以往也有更加详实充分的依据,因此也就具有了高度的科学性和说服力。当然穷尽性是相对而言的,通用型的语料库数据范围和数量都极大,要想进行穷尽性的分析统计有时还需要借助相关的专业工具和技术。而专门语料库数据量较小,进行穷尽性的分析难度较低,操作起来比较简单易行。所以不论难度高低,我们都要进行穷尽性的检索和统计,这样我们最后得出的结果才有意义,有一定语言研究价值。因此,穷尽性是辞书编纂中语料库数据分析的重要原则。只有把握了穷尽性原则,才
此文档下载收益归作者所有