欢迎来到天天文库
浏览记录
ID:5277261
大小:780.98 KB
页数:81页
时间:2017-12-07
《语音库的收集与标注》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、语音库收集与标注语音库收集与标注HandbookofSpeechCorpusCollectionandAnnotation李爱军中国社会科学院语言所liaj@cass.org.cn1¾特点:ò没有现成教材;ò实用性强;ò和应用联系紧密-“更新速度快”¾有用网址:òwww.bas.uni-muenchen.de/BasòStudyingPhoneticsontheNethttp://faculty.washington.edu/dillon/PhonResources/PhonResources.htmlò社会科学院语言所òhttp:
2、//www.cass.net.cn/chinese/s18_yys/s18_yys.aspò中国语音学会òhttp://www.phonetics.org.cn¾PeterLadefoged,PHONETICDATAANALYSIS-AnIntroductiontoFieldworkandInstrumentalTechniques,BlachwellPublishing,2003,2004,20052005年语音语言与言语科学讲习班,中国社会科学院2第一章概论一、引言二、法律、协议等问题三、描述数据(Metadata)第二章语音数
3、据库制作一、语音库规范二、语音库收集工作准备三、语音库收集四、后期处理五、语音库标注六、发音词典七、文档八、合格性评价/语料库评测九、语音库分发第三章汉语语音库标注规范一、音字转写规范二、音段标注规范三、韵律标注规范第四章实例2005年语音语言与言语科学讲习班,中国社会科学院3第一章第一章概论概论一引言1.1语音库制作和标注的意义¾语音基础研究ò声学语音学(Acousticphonetics):韵律/音段(prosody/segment);ò言语产生(Speechproduction);ò言语感知、理解(Perception)ò言语
4、习得(Languageacquisition)http://childes.psy.cmu.edu/ò语言资源及技术评测.ò语言调查2005年语音语言与言语科学讲习班,中国社会科学院41.21.2国际上语料库收集和发布机构国际上语料库收集和发布机构¾COCOSDA,CoordinatingCommiteeonSpeechDatabaseAssessment/InternationalCommitteeforCo-ordinationandStandardisationofSpeechDatabases.Topicareas:òSpe
5、echrecognitionòSpeechsynthesisòSpeechcorporaòCorpusannotationtoolsòLocallanguages¾ELRA,theEuropeanLinguisticResources2005年语音语言与言语科学讲习班,中国社会科学院5Aiti1.31.3术语定义术语定义¾语音语料库(speechcorpus)物理上的时间信号,大多情况下是录制的说话时候的声压或者其他可以测量的时间信号,与一些相关的标注、描写和文档共同存储在数字介质上。原则上可供至少一个研究单位使用。¾有效性/合格性
6、(validation)按照事先定义的规范对语音语料库的正规检查。¾评价(evaluation)对一个语料库的质量评价:如在某个应用中的可用性以及应用前景。¾规范(specifaction)语音语料库的固定技术指标描写,包括所有的特征:标注、描述数据和文档等。¾文件格式(fileformat)数字信号和符号(标注、描写数据)的标准或特殊格式。2005年语音语言与言语科学讲习班,中国社会科学院61.31.3术语定义术语定义¾标注(annoation)对连续的物理信号进行离散符号(范畴)描写。通常包括一套符号和原则,将这些符号与某个时间
7、点或某个时间段联系起来。¾域(domain)言语交际的话题或言语交际发生的情景。¾发音文本(prompt)给发音人的发音语料:词、短语或句子、语篇等。发音文本列表(promptlist)或发音语料库(promptcorpus)是语音库发音内容的发音文本集合。发音片子(promptsheet)是供发音发音的文字片子。¾发音内容(spokencontent):语音库的内容。¾描述数据(metadata)关于数据的数据。这里有三种含义:录音协议、注释说明和发音人特性。¾编码(code):相对自由文本的范畴化的一些数据项。例如在描述数据参数
8、“出生地”的编码中,可以用BJ代表北京,OT代表其他地区。2005年语音语言与言语科学讲习班,中国社会科学院71.41.4语音库分类语音库分类¾从语体上分类:对话语篇语音库;独白语篇语音库¾从话语的自然程度上分类ò朗读语音语料库:指有
此文档下载收益归作者所有