语料库在语言学各领域的应用

语料库在语言学各领域的应用

ID:5330535

大小:1.34 MB

页数:72页

时间:2017-12-08

语料库在语言学各领域的应用_第1页
语料库在语言学各领域的应用_第2页
语料库在语言学各领域的应用_第3页
语料库在语言学各领域的应用_第4页
语料库在语言学各领域的应用_第5页
资源描述:

《语料库在语言学各领域的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、语料库语言学(CorpusLinguistics)第一章语料库语言学在与语言相关各领域的应用邹煜zouiyster@gmail.com中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心http://ling.cuc.edu.cn1994-2003年近10年间基于语料库的研究情况(梁燕、冯友、程良坤,2004)CORPUSLINGUISTICS10年间基于语料库的语言研究领域(梁燕、冯友、程良坤,2004)CORPUSLINGUISTICS口语、语言变异、语言教学B词汇、语法、AC机器翻译语义、语

2、用语料库ED语音识别/合成??CORPUSLINGUISTICS本章的主要内容(Outline)#1语料库与词汇研究#2语料库与句法、语义#3语料库与语用研究#4语料库与口语研究#5语料库与语言变异/变化研究#6语料库与语言教学#7语料库与机器翻译#8语料库与语音识别/合成CORPUSLINGUISTICS语料库与词汇研究基于语料库的词汇研究有哪些方面?怎样来研究?新词语、流行语词频研究搭配研究词典编纂……CORPUSLINGUISTICS语料库与词汇研究新词语研究如何从语料库中提取出新词

3、语?以国家语言资源监测与研究中心有声媒体语言分中心2007年度的新词语提取技术路线为例--引自《中国语言生活状况报告(2007)》(下编)346-349页CORPUSLINGUISTICS语料库与词汇研究新词语研究1.对2007年全部语料进行全切分,保留2—9字的符号串。全切分是指将所有可能的符号串全部切出,从理论上避免切分(或组合)盲点,以保证新词语全部都在切分出的符号串之内。2.以天为单位输入数据库,并分别以月和年为单位统计符号串的频次、文本数、出现天数。囿于计算机的计算能力,去除年频次为1的符

4、号串。计算出其余符号串的归一化使用率。3.重复第1步和第2步生成2004、2005、2006等各年度数据表,作为与2007年数据表对照的底表。CORPUSLINGUISTICS语料库与词汇研究新词语研究4.以2007年度数据表为对象表,以往年度数据表为参照表进行归一化使用率比对,得到年使用率差,并生成一张以2007年度符号串为主目的并带有该符号串历年信息的全信息表。年使用率差公式如下:U−U(t)(t−1)∆Φ=U+U(t)(t−1)U为归一化使用率。U(t)为当前考察年度中该词语归一化使用率。U为

5、前一年度中该词语归一化使用率,分母为归一化项。(t−1)将计算结果按降序排列,排在前面的就是年使用率差比较高的词语。年使用率差为1的词语就是在这个语料集合中当年度出现,而前一年度没有出现的词语。CORPUSLINGUISTICS语料库与词汇研究新词语研究5.根据下列条件对所得符号串进行粗过滤:①过滤掉年使用率差在0.99以下的。为什么?一,全切分中可能会有一些伪串,如果只取1,可能会误杀无辜;二,有些词语在前一年只是偶发现象,个别现象,如果当年大量出现,则恰好说明它已进入准词位,甚至进入词位。②过滤

6、掉2007年度归一化使用率在10的负9次方以下的,这是一个经验值,目的是过滤掉频次及文本数较低的符号串。③过滤掉2007年度频次、文本数、天数完全相同且频次在20以上的符号串。比如电视节目《马斌读报》中每天都有“家事国事天下事,事事关心,欢迎您第一时间听我马斌给您读报”等。6.对所得符号串再过滤:①以特定字作为标识剔除时间、日期串,如6点30分、2007年3月;②以独做姓氏字为标识剔除人名,如赵云亮、郭伯雄;③合并频次相近的包含关系符号串,如“社会主义新、社会主义新农、社会主义新农村”就可将短的合并到

7、长的里面去。CORPUSLINGUISTICS语料库与词汇研究词频统计——据LongmanLancasterCorpus统计CORPUSLINGUISTICS语料库与词汇研究词频统计COBUILD英语词典(CollinsCobuildEnglishDictionary),1995版CORPUSLINGUISTICS语料库与词汇研究词频统计朗文当代英语词典(LongmanDictionaryofContemporaryEnglish),1995版CORPUSLINGUISTICS语料库与词汇研究

8、词语搭配看电影see/goto看球赛watch看小说read看朋友visitCORPUSLINGUISTICS语料库与词汇研究词语搭配什么是搭配?Acollocationisanarbitraryandrecurrentwordcombination.(Benson,M.,BBICombinatoryDictionaryofEnglish,1985,1986)搭配的性质搭配是重复出现的搭配是任意的搭配通常是具有一定结构的搭配是与领域相关的C

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。