欢迎来到天天文库
浏览记录
ID:46241853
大小:75.02 KB
页数:55页
时间:2019-11-22
《数据库与语言研究讲义》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、I^ZZCAR能力与数据库®CAR能力已成为必备素质CAR(ComputerAidedResearch)表示计算机辅助科研。如果说如今计算机课程已经成为文理科木科生的必修课,那么一个必须从事科研工作的研究生,不具备CAR能力,是不能充分胜任白己的学习、工作的。现代科学研究越來越倾向于用数据说话。对于语言研究來说,就是让语言材料说话。在与语言教学有关的科研过程中,语感无疑是重要的,它是人脑这台高级计算机对个人语言经历的归纳和演绎。但个人的语感往往是片面的,例如某种用法是否为某个词的最常见用法,学者们用人量语料验证的结果常常与一些现成的结论人相径庭。但我们
2、看到,基于人量语料的语言研究至今还有许多人是通过辛勤的手工劳动实现的(语言信息处理工作者例外)。笔者曾介入几个语言/教学科研项目,使用CAR方法比使用原定方法可提高效率远不止一倍。那么CAR很难实施吗?如果是十几年前,回答是的。当时计算机其主频、内存、外存都相当于今天的1/1000数量级。加上只有DOS、行编辑器、QBASIC和DBASE软件环境,汉字输入都是很大的技术问题。要做出儿部现代文学著作的逐字索引,须中文、计算机专业联合攻关数年才成。九十年代中期,我们要建立几百万字的语言研究语料库,仅搜集和输入电子文本就花费了大量人力、物力,耗时经年。如今在
3、人学,计算机已经高度普及。软、硕件特别是网络技术发展为我们实施CAR提供了更便利的条件。由于计算机软、硬件的提高和普及,越来越多的研究工作可以由计算机辅助我们完成,许多工作不需要编程,即使编程难度也大大降低。现代科学尤其注重证据,语言学证据来自大虽语言材料,而网络和计算机系统的发展使得语言材料的来源和处理今天都不再是难题,所以CAR能力必须成为语言类研究生必备的手段,也应该成为文科类研究生必备的技能。®本课程的目标:语言研究的CAR基本能力人们已经公认,外语能力应该成为文科尤其是语言类研究生必备的素质。现在乂说CAR能力也应该成为必备的索质。如果培养这
4、种索质要象培养外语能力一样需要专攻三年五载,这不是要下大决心才能做到的事吗?的确,看看身边具备CAR能力的人,不管文科出身还是理科出身,好彖都是苦修多年才悟出门道的。这些人都先后学过儿门计算机语言,经历了儿代软、换件更新,还得年复一年地与III习惯知识作斗争。更重婆的是,现有的计算机语言都不是为语言学家设计的,你得学完了儿乎所有的命令和函数,试了乂试,才找到若干派得上用场的知识。显而易见,研究生的CAR训练不应该重复这一切。据笔者近年来观察,CAR能力人致可分两个层次:基木能力和变通能力,其分野为是否编程。能在基本不编程的前提下,充分利用软件系统现有的
5、命令和函数以及有限的儿个特定的专业程序减少语言研究屮的手工作业,可称具有CAR基木能力。在必要时能够编写H己的命令和函数,灵活解决语言研究小的应用问题,则称具有CAR应变能力。前者基木是个封闭的知识系统,可通过有限的训练得到,可以满足人部分工作需要;后者涉及因素较多,只能通过一些典型案例的讨论使大家有所感悟。由于同学们基础不同,课时有限,本课程基本限于CAR基本能力的培养。0CAR与数据库语言根据笔者教学经验,对■—•个有计算机普及基础的语言工作者,约需要60个小吋的训练可初步形成CAR基本能力。一旦形成CAR基本能力,大约可独力应付日常数据处理的6〜
6、7成,剩下的事即使要请人帮忙,也可以正确描述口己的问题了。以上估计基于下列考虑:1尽管进入多媒体信息时代,但语言信息还主要是以文本形式记载和传播的。n前文科研究涉及的主要是文本语料。CAR能力nJ暂时局限于文本处理能力。2文本信息的存储、组织、检索等处理的方法很多,可以用各种计算机语言实现,但据笔者和多位用过多种让算机语言的语言学者讨论的意见,最便当、最常用的还是数据库系统。现代数据库系统中,存在一种长字符串数据类型(可以存放一句话、一个段落乃至一-本书),对应数据表中一个小格,这为轻松构造文本数据库提供了方便。现代数据库系统中用于处理文本字符串的命令
7、、函数也比C语言等普通高级语言丰富0另外现代数据库系统多具有而向问题的命令系统,可以用语法较为复杂的填空命令替代复杂编程。血向对象的功能也发展得很充分,可以用人机对话完成许多复杂任务。即使编程,难度也比C语言等普通高级语言低得多。因此CAR能力可暂时局限于运用数据库系统处理文木信息的基木能力。®CAR基本能力的三个方面运用数据库系统处理文本信息的基本能力又可以大致归纳为三方面能力:a)在基木不编程的情况下,怎样由WORD、IE浏览器等格式的原始文木、表格得到原始文本数据库b)在基木不编程的情况下,怎样根据不同的应用要求由现冇文本数据库得到不同视角的新数
8、据库,如句子卡片库、段落卡片库、逐字索引等c)在基本不编程的情况下,怎样灵活表达各种检索、统计
此文档下载收益归作者所有