欢迎来到天天文库
浏览记录
ID:28077890
大小:17.92 KB
页数:4页
时间:2018-12-07
《俄语大型动态网络语料库建设与应用分析》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。俄语大型动态网络语料库建设与应用分析 摘要:网络语料库是大数据时代语料库发展的重要方向,GICR作为俄语大型动态网络语料库的最重要代表之一具有较高的研究价值与借鉴意义。通过对GICR语料库总体设计、语料采集方法、处理手段和标注体系的分析述评,深入讨论了该语料库的在语言信息处理及语言学研究领域的应用研究,论述了该语料库的特点与独特优势,对俄语网络语料库研究的深入开展奠定了初步基础。 关键词:网络语料库;俄
2、语;GICR 中图分类号:TP391文献标识码:A文章编号:1009--0212-04 ASurveyofBuildingandUsingGeneralInternetCorpusofRussian YUANWei1,2 Abstract:IntheeraoflargedataWebascorpusisanimportantresearchdirectionofcorpuslinguistics.AsoneofthemostimportantrepresentativesofRussianwebcorporaGeneralInternetCorpusofRussianh
3、asasignificantresearchvalue.ThispaperdiscussesthemainmethodsofGIRC为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。fortextscollection,cleaning,organizationandann
4、otation,discussesthecharacteristicsanduniqueadvantagesofGIRC,analysesitsapplicationsinlinguisticstudiesandnaturallanguageprocessing. Keywords:Webascorpus;Russian;GIRC 1概述为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校
5、做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。 �S着大数据概念逐渐与语料库研究相融合,该领域的研究方法与范式已经产生了巨大变化。传统语料库的构建通常是需要消耗大量人工的缓慢进程,而这已无法适应学科发展对超大规模语料库的迫切需求,学者们纷纷将目光转向拥有海量语言数据的互联网。Kilgarriff[1]首次提出网络语料库的概念,讨论了基于网络数据驱动的语料库研究问题。XX年初名为WaCky!的学术团体成立,XX至XX年间构建了一系列网络语料库,每个都包含了10-20亿词[2]。XX年启动的COW项目构建了面向
6、英、德、法、荷、西和瑞典语的网络语料库,至XX年多数语料分库规模已经逼近100亿词[3]。在CLARIN项目框架内面向南斯拉夫语言的构建了一系列网络语料库,规模从4亿到20亿词不等[4]。与此同时,俄语网络语料库也得到了新发展,规模较大的如Aranea项目框架内构建的网络语料库包含近15种语言,其中俄语分库根据来源网页域名分为三个分库每个分库按照语料规模都有Maius和Minus版本,如Russicum的大、小型语料分库分别包含和亿俄文词[5];TenTen多语种网络语料库项目中每个语种分库都超过10亿词,俄语分库ruTenTen是最大的分库之一[6];RussianWebcorp
7、ora通过500个检索词借助搜索引擎获取语料,总规模约亿词[7]等。 一直以来,俄语国家语料库成为大部分学者研究俄语的标准配置,然而该语料库中当代俄语的现时数据占比较少,因此并不十分适应面向现代俄语的语言共时研究。上述网络语料库的构建成果是有目共睹,一定程度上丰富了研究者的语料选择,但都不同程度上存在缺陷,如上述Aranea、ruTenTen语料库旨在面向多个语种,缺乏对俄语的定制性标注与研究。除此之外,包括I-RU在内,这三个语料库规模可观但都缺乏元数据信息不易用
此文档下载收益归作者所有