大数据背景下bcc语料库的研制

大数据背景下bcc语料库的研制

ID:33754398

大小:1.52 MB

页数:18页

时间:2019-02-28

大数据背景下bcc语料库的研制_第1页
大数据背景下bcc语料库的研制_第2页
大数据背景下bcc语料库的研制_第3页
大数据背景下bcc语料库的研制_第4页
大数据背景下bcc语料库的研制_第5页
资源描述:

《大数据背景下bcc语料库的研制》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、语料库语言学 2016年 第3卷 第1期大数据背景下BCC语料库的研制北京语言大学 荀恩东 饶高琦 肖晓悦 臧娇娇提要:“北京语言大学语料库中心(BLCUCorpusCenter,简称BCC)”是以汉语为主、兼有其他语种的在线语料库。BCC总规模达数百亿字,是服务语言本体研究和语言应用研究的在线大数据系统。BCC检索式由字、词和语法标记等单元组成,并且支持通配符和离合查询。本文将概述BCC的总体情况,包括语料库建设情况和检索引擎开发等,重点介绍BCC形式化检索语言和在线系统的使用方法。关键词:BCC语料库、

2、大数据、语言检索、检索式一、引言在大数据背景下,语言本体研究、语言教学和语言应用研究都离不开语料库的支持。在语言本体研究中,利用大规模语料,对语言现象进行穷尽式考察,可以归纳、完善、验证语言理论或观点,又可以通过实证方法,为语言理论的研究提供数据支撑和量化分析;在语言教学中,语料库可以提供真实的语言素材,用于教学内容制定和讲解,使语言教学内容选取和教学实施过程更加科学,并可以支撑辞书和教材的编纂;同时,语料库作为模型训练知识库,在语言信息处理各种应用中起着不可或缺的作用。采用语料库进行实证研究历史悠久,国内

3、外一系列语料库系统推动了语言研究的进步和发展。中文语料库方面,有“国家语委语料库”、“北京大学现代(古代)汉语语料库”、“中国台湾中央研究院语料库”、“兰卡斯特汉语语料库”等;在英语语料库方面,有“英国国家语料库(BNC)”、“美国当代英语语料库(COCA)”等。语料库发展到今天,出现了新的特点和需求:1)语料库规模越来越大,逐渐进入大数据时代。随着信息社会的发展,个人微机的迅猛发展和存储数据的硬盘造价持续下降,使得能够记录语言生活的终端设备越来越普及,数据存储能力越来越强,网络传输速度越来越快,每天产生的

4、语料数量大大超过以往。这些发展都为大规模语料库的采集提供了技术支持。2)语料库成为语言技术进步的知识库。在语言大数据基础上,语言应用技术快速发展,人工智能在多个应用领域取得突破性进展。这些新技术进步,正在改93大数据背景下BCC语料库的研制变社会语言生活,为语言研究不断提供新课题并提出新的挑战。3)语料库形式多样。语料的领域越来越细化,语料加工越来越深入,网络社交语料异军突起。4)语料库使用越来越便捷。在线语料库查询和统计功能更加人性化,除了面向个人在线使用外,语料库还利用云服务接口,通过云调用大大拓展了语

5、料库的应用范围。“北京语言大学语料库中心(BCC)”(http://bcc.blcu.edu.cn)是以汉语为主、兼有其他语种的语言大数据,目标是为语言本体研究提供一个使用简便的在线检索系统和构建大数据的语言应用基础平台。BCC支持云服务,通过API调用方式为开展知识抽取、模型构建等研究和应用工作提供便利。本文首先概述BCC研制的总体情况,重点介绍BCC检索式,并在附录中给出了BCC检索式实例和中英文词性体系。二、BCC语料库研制一个语料库系统的建设,主要包括三方面工作:语料库资源建设、检索引擎开发和提供语

6、料库检索服务。如图1所示,语料库的资源建设是构建语料库数据内容的基础。BCC主要包括三种类型语料:多语种单语语料库、双语对齐语料库和深加工的树库。语料库检索内核是实现语料库系统的技术基础,采用基于后缀串的全文检索算法,并且支持通配符和离合模式匹配。检索服务是指使用语料库系统的方式和方法。BCC提供两种服务方式:在线检索和云调用。图1. BCC语料库系统示意图94荀恩东 饶高琦 肖晓悦 臧娇娇2.1 语料库资源建设语料库建设是指在确定语料库内容、规模和形式后,对语料进行采集、加工和标注等,通过对自然语言文本的

7、采集、存储、加工,可以凭借大规模语料库提供的客观语言事实为语言学研究提供支撑(黄昌宁、李涓子2002)。BCC语料库具有以下特点:语料库函盖多个语种以汉语为主,兼顾其他语种的语料。目前BCC包含9种语言,如英语、西班牙语、法语、德语、土耳其语等。其中的英文语料主要采自《华尔街日报》,规模约为12亿单词。BCC语料以单语语料为主,也包括双语平行语料,如英汉、英德等双语对齐语料库。目前有9种语言互译,各类双语语料总规模约千万句。检索时,汉语最小的单位是汉字,其他语种最小的单位是单词,但单词不支持词形变化,保持原

8、始语料中的形态,例如:英语The和the在语料库中是两个单词。多层次语料加工包括生语料、分词语料、词性标注语料和句法树。目前已对现代汉语、英语、法语的语料进行词性标注,除此以外的其他语料都是未加工的生语料;句法树包括中、英文树库,分别引自美国宾州大学的中文和英语树库。语料加工层次不同,支持检索的功能也不同,例如:生语料不支持带有词性信息的检索,树库支持短语类型标记的检索。现代汉语语料和古代汉语语料兼具对现代汉语语

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。