基于R―gram的语料库分析软件PowerConc的设计与开发

基于R―gram的语料库分析软件PowerConc的设计与开发

ID:30536706

大小:119.00 KB

页数:12页

时间:2018-12-31

基于R―gram的语料库分析软件PowerConc的设计与开发_第1页
基于R―gram的语料库分析软件PowerConc的设计与开发_第2页
基于R―gram的语料库分析软件PowerConc的设计与开发_第3页
基于R―gram的语料库分析软件PowerConc的设计与开发_第4页
基于R―gram的语料库分析软件PowerConc的设计与开发_第5页
资源描述:

《基于R―gram的语料库分析软件PowerConc的设计与开发》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于R―gram的语料库分析软件PowerConc的设计与开发  摘要:在继承以往语料?分析软件优点的基础上,本研究开发了具有独立知识产权的PowerConc语料?分析工具。PowerConc对传统的词汇索引、词表生成、主题词计算等功能进行了重构、扩展和优化。整个软件以基于正则表达式(regularexpressions)的N元组(N-gram)为基础。二者的有机结合即本文所提出的R-gram。R-gram这一概念大大增强了检索和匹配的灵活性。同时我们设计了兼容正则表达式的简易输入语法――SmartInput,降低了用户使用的难度,提高了软件的易用性。

2、PowerConc软件基于面向对象的思想开发,核心功能被封装在不同的类中,与界面分离,具有很好的扩展性和可维护性。PowerConc的开发将有效促进语料?语言学研究的开展。  关键词:语料?分析工具;PowerConc软件;R-gram;语料?  中图分类号:H319.3文献标识码:A文章编号:1001-5795(2013)Ol-0057-0006  1语料?分析软件的开发背景  1.1引子12  语料?研究需要对大量文本进行计算机分析,其中语料?分析软件的作用十分关键,且很大程度上决定着研究数据的准确性和可靠性。没有良好的语料?工具支持,语料?研究便

3、难以有效开展。目前常用的语料?分析工具有:MikeScott设计的WordSmithTools(以下简称WordSmith)、LaurenceAnthony设计的AmConc、MichaelBarlow设计的MonoConcPro和R,Watt设计的Concordance等。其中WordSmith功能最全,学界认可度最高。其他软件有的是WordSmith的(部分)重写,有的只能实现WordSmith的少量功能。综合来看,这些软件通常包含词汇索引(concordan―cing)、词表生成(wordlist)、主题词计算(keywords)等功能,但在统计

4、和搭配计算等方面,对正则表达式(regularexpressions)和N元组(N-gram)的支持,易用性和计算效率方面还有待提高。  近些年来,国内外语料?建设蓬勃发展,但语料?分析软件的开发却相对滞后,一方面新工具开发较少,同时,原有语料?分析工具升级缓慢,在核心功能上改进不大。本研究希望结合语料?语言学近年的发展,开发出与之相适应的分析工具。  1.2语料?分析软件发展概述  语料?是指按一定原则取样获得的大规模电子文本汇集(Sinclair,1991;Hunston,2002;Baker,2006)。语料?规模通常很大,因此需要借助计算机软件

5、来辅助分析。近半个世纪以来,语料?分析工具层出不穷,数量、种类不断增加。  语料?软件包括:词汇索引工具(concordancer)、自动和手工标注工具(词性标注、句法标注、语义标注、语用标注等)、文本整理工具(文本格式转换、文本编码转换)、口语转写工具、统计分析工具等。语料?分析工具中最常用的是索引工具。一般所谓的通用型语料?分析工具即指索引工具。最早的计算机索引工具由Robeto12Busa于1951年开发(McEnery&Hardie,2012:37)。当时的索引工具只能提供索引行语言实例。后来索引工具的功能得到很大扩展,但名称仍然叫做索引工具。

6、现在的通用型索引工具,通常至少包括生成索引行和词表两大功能。  根据McEnery&Hardie(2012:37-48)对语料?分析工具的时代划分,我们将相关工具开发情况汇总如表1。  其中,第一代和第二代索引工具主要是在DOS环境下运行。第一代工具更受硬件限制,运行速度缓慢。第二代索引工具已能初步实现今天索引工具的基本功能,如:索引行的生成、词频表、短语表的生成,甚至是词语搭配的计算(如TACT)。  第三代语料?工具以WordSmith为代表,这些软件主要在Windows或其他图形界面操作系统中运行。WordSmith是商业软件,AntConc为功

7、能相近的免费替代软件。这两款软件最能代表第三代语料?分析工具,两者都拥有广泛的用户群体。WordSmith各版本主要功能划分为三大模块,即:词汇索引(Concord)、主题词(KeyWords)、词频表(WordList)。到5.0版本(2008年)以后,WordSmith增加了框合结构(Conc―Gram)功能,但从界面功能划分看,主要还是维持三大核心模块。大模块下还有词簇提取(cluster)和词语搭配等子功能模块。WordSmith的三大模块成为了通用语料?软件开发领域的事实标准。  第四代语料?工具主要指基于互联网的语料?网络应用(web12a

8、pplication)。这类工具通过浏览器与服务器的交互,将语料?与检索工具融为一体。这些工具

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。