欢迎来到天天文库
浏览记录
ID:33334643
大小:32.50 KB
页数:10页
时间:2019-02-24
《语料库简单diy》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、语料库简单DIY第二讲a.开始进入语料库软件的应用领域,我们应该从什么地方下手?b.如何培养一种理性地逻辑思维,从而对语料进行加工和处理?c.MonoConcPro是什么?它能帮助我们做什么? 语料库简单DIY 第二讲 语料库软件初探--MonoConcPro2.2主讲 叶城 日本国立广岛大学综合科学研究中心 计算机辅助语言教学博士一年联系方式: QQ47354211 E-mail:sery2004@hotmail.com 朋友们,首先我们想想上一讲我们都谈到了哪些问题。(如果有想不起来的,
2、可以翻看上一讲的帖子) 通过上一讲的学习,大家了解到了语料库CORPUS的定义,语料库语言学的定义,以及语料库语言学的特征;并且,在我的苦口婆心威逼利诱之下,朋友们硬着头皮和我一起简单地回顾了一些对于大家来说并不熟悉的语料库产品,了解了一些语料库发展的历史等等。总而言之,算是抛了个砖头出去,至于有没有起到砖头的作用,砸没砸到点儿上,这就不得而知啦。上一次讲义之后,纵观朋友们的留言,基本上都是对今后讲座的期待等等。没有疑问,没有质疑。这一点不是太好,我觉得这里面还是能提出很多问题的。不过,既然算是一种科普性质的讲座,我也不能对大家要求过于苛刻,总而
3、言之,希望我讲的东西,真的对大家有用,不至于回国下了飞机就被西红柿和板砖儿砸得看不清方向。 下面进入今天的正题: 语料库软件初探--MonoConcPro2.2 本软件是Athelstan开发小组http://athel.com/,于1996年开发的语料库比较检索工具。目前,我的服务器上提供学术性下载,下载地址: http://vu.flare.hiroshima-u.ac.jp/whistle/corpus/MoconcPro2.2.rar (本
4、软件为学术交流使用,所有权归本软件开发小组所有,一切商务性盈利目的的违法使用,所带来的连带责任关系与本人及本论坛无关。请慎重下载,小心使用!!!) 功能介绍:软件主界面 基本功能: MonoConcPro2.2的软件界面比较简单。适合语料库初学者和初级研究人员使用。 本软件据作者的研究,其内部主核使用UTF-8编码,基本支持欧洲几种主要语言。当然,其主要的应用领域还是针对英语。本软件主要处理的文本素材是以TXT结尾的记事本文件,当然,本软件还可以导入RTF文档和其他格式的操作系统默认文档格式。不过,从DI
5、Y的角度来说,我们自己收集到的语料,为了免除格式,字体,行距等等文本要求,最好全部使用TXT文档,方便,省事!用了都说好!(谁用谁知道) 我们按照自己的研究目的,研究方向,收集我们所需要的语料素材,具体的收集方法因人而异。可以从报纸杂志的电子文文档上直接下载,也可以从网站上直接下载整理好的TXT版本的小说,资料素材等,还可以直接从各大语料库中检索需要的语用素材,然后拷贝粘贴到TXT文本中。由于MonoConcPro强大的跨文档处理系统,一次可以同时导入多个TXT文档进行比较处理,所以我们可以把文章或者资料按照自己喜好的分类标准进行分类,然后存成不
6、同的TXT文件名。检索的时候,只需要同时导入这些文件就可以了。(异常强大~) 下载好软件,解压缩,然后打开MP22.EXE文件,你就可以看到上图那个简单的主界面了。 之后,选择File→LordCorpusFile(s),找到你需要导入处理的TXT文档,一个或者多个都可以,然后选择[打开]。指定的TXT文件就被全部导入进MonoConcPro中了。 如果导入了过多的TXT文档,比如您导入了莎士比亚全集+马克思选+恩格斯选+列宁选+毛泽东选+邓小平选.....(不能否认,真的有这样的朋友存在)。那么,为了方便您查询检索结果所出现的文章,
7、你可以选择File→ViewCorpusFile/URL,这样就能看到查询结果所在的文章,还可以删除不需要的文章,或者添加新的文章,非常简单。 *这里的URL,指的是在HTTP或者FTP上,可以直接打开的文字页面的链接。一般朋友们DIY的语料库都是存在本地硬盘上的,所以基本上可以无视这个选项。不过,将来我们的个人语料库要实现点对点,点对多的平台连接。连接后,我们就可以相互查询对方个人语料库中的资料,此时在导入对方语料库中的文档的时候,就要用这个了。(这个目前还很遥远,大家还是踏踏实实做自己的DIY语料库吧!) 当我们要删除所有的文章的时候,这个
8、时候仅仅关闭文章的窗口,是不能实现删除文章内容的。关闭了窗口,只是你看不见了而已,但是文章实际
此文档下载收益归作者所有