赣南客家方言语音语料库及其检索平台的设计与实现

赣南客家方言语音语料库及其检索平台的设计与实现

ID:31402657

大小:111.00 KB

页数:9页

时间:2019-01-09

赣南客家方言语音语料库及其检索平台的设计与实现_第1页
赣南客家方言语音语料库及其检索平台的设计与实现_第2页
赣南客家方言语音语料库及其检索平台的设计与实现_第3页
赣南客家方言语音语料库及其检索平台的设计与实现_第4页
赣南客家方言语音语料库及其检索平台的设计与实现_第5页
资源描述:

《赣南客家方言语音语料库及其检索平台的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、赣南客家方言语音语料库及其检索平台的设计与实现  摘要:因为没有文字系统,方言语料库通常意味着语音语料库。语音语料库在采集、整理、规范和归档等方面都与文本语料库有明显不同,因此,方言语音语料库的检索、提取和呈现对技术提出更高要求。另外,方言的内部变异是语料采集过程中需要考虑的重要因素。本文针对方言语音语料库建设中的常规问题,以赣南客家方言语料库为例,就语音语料库及其检索平台设计与实现过程进行深入探讨。  关键词:赣南地区客家方言语音语料库检索平台  一、引言  我国历史悠久、地域广大和人口众多,形成了各种各样、千姿

2、百态的不同方言。不过,面对如此丰富的语言资源宝藏,国内方言语料库建设并不多,除了北京方言、粤语和江苏省境内方言等发达地区外,很少有其他语言得到学界和社会的足够关注。一方面是因为方言在社会交往活动中,相对于普通话而言,处于区域性和边缘性地位。另一方面,方言缺少书写系统,对它的采集和描写比现代通行汉语要艰难得多。2008年,国家语委启动了“中国语言资源有声数据库建设”项目,说明国家高度重视我国语言文化资源的采集和保护工作(李宇明,2010)。2013年,教育部语言文字信息管理司发布了《中国语言资源有声数据库建设工作规范

3、(试行)》(教语信司函〔2013〕17号),从具体实施细节上进一步规范了我国语音语料库的建设。2014年,中山大学庄初升教授主持的“9海内外客家方言的语料库建设和综合比较研究”获批国家社科重大项目立项资助,充分说明学术界也已意识到方言语料库建设的必要性和重要性。  方言语料库的建设与普通话等官方语言有着显著区别,面临更多实际困难。从某种意义上说,一个如实全面反映方言特征的方言语料库必须包含语音语料库,因为声音几乎是绝大多数方言存在的唯一形式。如果没有语音数据,直接对它进行文字转写和存档,其价值将大打折扣。本文以赣南

4、客家方言语音语料库的建设为例,研究方言语料库及检索平台建设的设计框架和实现方案,以探索方言和其他同类语音语料库基本建设途径。  二、方言语料库的基本特点  相比较于官方正式语言语料库建设,方言语料库主要有以下一些特点:  (一)一般以语音为主  绝大部分方言素材都是以口语形式存在于语言社区之中,采集口语作为语料几乎是方言语料库建设的唯一途径。语音采集分为从录音棚里录制指定的方言表达内容和在实际交际环境中录制自然话语。前者显然比后者便于操作,录制效果易于控制。早期方言语料以前者为主,从朗读指定内容发展到讲述指定故事,

5、反映出采集人员不断追求真实语料的努力。这种方式虽然在具体实施上较为方便,可以通过短时的录音达到较大的词汇密度,但其语料常常难以具备代表性,很难为方言研究提供反映语言全貌,有代表性和说服力的数据。最近,由于录音设备变得便捷,音频捕获和剪辑不再困难,尽量采集自然口语进行语料库建设成为一种趋势和必然发展要求(范俊军,2013)。显而易见,不管是采用录音棚还是田野录音,相比较于文本语料库,语音语料库的建设无疑困难得多。9  (二)现成可用资源少  方言作为地方性使用语言,加上缺乏统一对应的文字符号系统,一般很少见于官方正式

6、文件。即使语音形式,广播、电视等媒体节目也很少使用方言(其中粤语节目占了较大比例)。在新兴网络媒介中,由于传播量大,加上普通人也可以参与,开始出现部分娱乐或者教学性质的方言语音节目内容。总体上,运用方言进行交传播和交流通常还是局限在口耳相传这种初级形式。方言使用现状直接导致方言语料库建设中可以利用的现成资源非常少,这点与现代汉语(普通话)语料库的建设不一样。现代汉语语料库建设可以选用大量现成的电子文本数据资源,即使是建设语音语料库,也可从丰富的广播电视节目中采样选取。  (三)语料采集比较困难  因为没有现成语言素

7、材可供利用,方言语料采集比较困难。通常需要采用田野调查的办法,到方言所属区域进行语音采集。考虑到语料代表性,采集人员需要到不同地域,录取不同职业、阶层、年龄和性别说话人的语音材料。受限于资金、时间、精力和对被采集地区及其人员的了解程度,语料采集困难重重,需要在保证语料库质量的前提下,因地制宜和灵活处理。  (四)语料翻译与转写费时费力9  一般而言,方言语料库不仅要服务于理解该方言的学者开展学术研究,还要面向不是以该方言为母语的其他学者或者非科研用途使用人员。另外,还要考虑到语料的检索使用问题,因为方言没有书面文字

8、系统,语料检索通常依赖于对应的普通话翻译词语。因此,将方言语音进行翻译,转写成对应的汉语文字就非常重要。这方面工作量极大(王泽鹏,2003;洪拓夷,2009)。根据经验,一个小时的音频通常要耗费十几到几十小时的翻译转写时间。  三、方言语料库的检索平台及技术难点  同样的,方言语料库的检索平台搭建与官方正式语言语料库有显著不同,面临更高技术要求。  (一)存

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。