语料库建设(下).ppt

语料库建设(下).ppt

ID:52158672

大小:93.50 KB

页数:18页

时间:2020-04-01

语料库建设(下).ppt_第1页
语料库建设(下).ppt_第2页
语料库建设(下).ppt_第3页
语料库建设(下).ppt_第4页
语料库建设(下).ppt_第5页
资源描述:

《语料库建设(下).ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、语料库建设(下)授课时间:2006年12月13日授课人:徐艳华教学目标语料库的应用国内语料库的建设情况语料库的建库原则语料库的建库流程语料库的基本功能一、语料库的应用语料库语言学的发展使语料库在语言教学、语言研究和语言工程各个领域得到了广泛的应用,具体说来包括以下几个方面:语言频率统计语料库最早的应用领域之一是语言频率统计。语言频率统计属于基础研究,如汉语中的字频统计、英语中的词汇频率统计、各种词类的出现频率统计等等。词典编纂词典是使用中的语言的记录,从词条的选择、义项的确定、词义的解释、例句的选用,无不反映编纂者的语言观,辛克莱教授在20世纪70年代带头建立了COBUILD

2、语料库,采用词语索引技术对海量语料进行大规模调查,从此开创了现代词典编纂的先河。词汇搭配研究词的搭配是语言的固有特征之一,词的搭配往往是不能跨语言的,在一种语言中可接受的搭配,在另一种语言中不一定可接受。词的搭配往往受到词义、用法、文化、习惯等多种因素的影响。搭配研究本来主要靠语言学家的语感,大容量语料库的问世为搭配研究提供了客观的量化分析的依据,使词汇搭配研究更科学、更全面。语言教学由于语料库是语言事实的采样,这就为语言教学提供了真实的语言材料。学生可以自己到语料库中查询词的用法、词的搭配、词义的细微差别等等。这就是所谓的数据驱动学习。数据驱动学习不但为学生提供真实的语境,

3、而且为学生提供了一种探索语言的手段,学生可以像语言学家研究语言一样对语言进行主动的探索,这在写作教学中可以收到很好的效果。自然语言处理语料库语言学为自然语言处理提供了概率方法,为自然语言处理研究开辟了新的途径,由于概率是语言运用的固有特征,因此基于概率分析的自然语言处理系统对不受限制的极其复杂的真实语料的处理,成功率要高得多,而且系统健壮,在遇到自然语言中大量存在的不规范句或部分规范句时系统不会中断。语料库语言学方法在语音识别系统中早就得到了广泛的应用,在机器翻译和其他自然语言处理系统中也愈来愈得到研究者的重视。二、国内语料库的建设情况北航语料库目的是进行现代汉语词频统计。历

4、时语料库,将1919——1981年间分为四个时期,按时期从社会科学和自然科学中采用随机和等距、分层相结合的采样方法抽取语料,规模为20,236,784个汉字。1986年6月通过鉴定。北京语言学院语料库:目的是进行现代汉语词频统计,历时语料库,选取“五四”以来的报刊政论、科普、生活口语和文学作品,共计179篇,规模为180万汉字。1985年7月建成。北师大语料库:目的对中小学语文课本进行词频统计研究,历时语料库,选取1983年——1984年度国内中小学语文课本24册的诗歌、议论文、记叙文、说明文、戏剧、散文、小说,按近代、现代、当代三个时期统计,规模为106.8万字。武汉大学中

5、国文学名著语料库目的是进行字频统计和逐词索引,选择我国现代著名作家老舍、曹禺、茅盾、巴金、叶圣陶、赵树理、夏衍、鲁迅、郭沫若等九人的作品33种。规模为527.4万字。山西大学语料库目的是进行字频词频统计,共时语料库,选取1987年7月的《人民日报》150万字、1987年7月的《北京科技报》20万字、1987年《当代》第3期30万字、1988年中央电视台“新闻联播”文稿约50万字,共250万字。另外还有上海交通大学科技英语语料库。三、语料库的建库原则建设语料库首先要搞清楚建库的目的。大型通用现代汉语语料库一般来说应该满足以下五个方面的需要。1、语言文字信息处理,2、语言文字规范

6、和标准的制定,3、语言文字的学术研究,4、语文教育,5、语言文字的社会应用。此外,还有供国内外各界检索汉语这个大语种的各种信息和数据;供辞书编纂部门查询新词新语,词汇使用的语境和例句,等等。1、语料库的设计原则通用性原则:以一般语料为主,吸收部分专业语料;以普通话语料为主,一般不收纯方言的语料;以书面语料为主,以口语语料为辅。描述性原则:强调忠实于语言事实的原貌实用性原则:在时间层次、文化层次和社会使用层面上对语料进行不等密度处理抽样原则:任何一种语言的语料都是无限多的,在开发建设语料库时不可能将所有语料都放在语料库中,应坚持抽样原则,选取真正有价值的语料2、语料的选样原则入

7、库的语料必须具有广泛性,有足够的覆盖面。入库的语料必须具有代表性,能够反映语料覆盖行业、领域中语言的基本面貌。入库的各种语料的比例应该合理。入库的语料必须具有规范性。所选取的文本应该具备完整性。语料的时代性应有充分的反映。四、语料库的系统开发流程语料录入——原始语料库——分句——分词系统——人工校对——分词语料库——分词校对辅助工具词性标注系统——人工校对——词性标注语料库——词语语法属性标注——人工校对——词性标注辅助工具语法属性标注辅助工具词语语法属性标注的语料库——人工句法分析——句法标注语料库—

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。