欢迎来到天天文库
浏览记录
ID:30622027
大小:37.95 KB
页数:36页
时间:2019-01-01
《中国语料库研究的历史与现状_1》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果中国语料库研究的历史与现状语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学,并成为了自然语言处理的一个分支学科。语料库语言学主要研究机器
2、可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来,机器翻译和自然语言理解的研究中,课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果分析语言的主要方法是句法语义分析。因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的
3、水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言中获得一定的成功。为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要
4、的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。一、国外语料库概况现在,美国Brown大学建立了BROWN语料库,英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB语料库。欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统TAGGIT来给布朗语料库的100万词的语料作自动标注,正确率为7%.他们还设计了CLAWS系统来给LOB语料库的100万词的语料作自动标注,根据统计信息来建立算法,自动标注正确率达6%,比基于规则的TAGGIT系统提高了将近0%.最近他
5、们同时考察三个相邻标记的同现频率,使自动语法标注的正确率达到%。这个指标已经超过了人工标注所能达到的最高正确率。现在,国外的主要语料库还有:课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果London-Lund口语语料库:收篇目87篇,每篇5000词,共为万词,有详细的韵律标注(prosodicmarking)。AHI语料库:美国Heritage出版社为编纂Heri
6、tage词典而建立,有400万词。OTA牛津文本档案库:英国牛津大学计算中心建立,有10亿字节。BNC英国国家语料库(BritishNationalCorpus):1995年正式发布,使用TEi编码(TextEncodingInitiative)和SGML通用标准置标语言的国际标准(TheStandardGeneralizedMarkupLanguage,ISO879,1986年公布)。ACL/DCI美国计算语言学学会数据采集计划:美国计算语言学学会(TheassociationforComputationalLinguistics,ACL)倡议的数据采集计划
7、(DataCollectionInitiative,DCI),其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言SGML统一置标,以便于数据交换。LDC语言数据联合会(LinguisticdataConsortium):设在美国宾州大学,实行会员制,有16个语料库(包括Text的以及speech的),共享语言资源。RWC日语语料库:日本新情报处理开发机构RWCP研制,包括《每日新闻》4年的全文语料,语素标注量达1亿条。课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本
8、学科出发,应着重选对国民经济具有一定实
此文档下载收益归作者所有