中文标注任务规范

中文标注任务规范

ID:15398676

大小:88.00 KB

页数:3页

时间:2018-08-03

中文标注任务规范_第1页
中文标注任务规范_第2页
中文标注任务规范_第3页
资源描述:

《中文标注任务规范》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、群音信息服务有限公司2014年3月9日星期日中文标注任务规范1.标注任务目标²标注任务就是标注声音文件内容,把“内容栏”的文本与音频红框中真实发音修改一致,最终获取到语音正常的声音文件。2.标注任务方式²标注音频数据总分两大类,好数据、坏数据。好数据指发音人是在与系统对话,且语音波形完整、内容清晰的正常数据;坏数据指无效数据;²内容与音频一致指音频发出内容与内容栏文本完全一致(没有错别字);内容与音频不一致指音频发出内容与内容栏文本不一致,需要人工操作修改一致。详细说明见下表:数据分类子分类标注方式好

2、数据内容与音频一致无需操作完成本条标注,点击“下一句”内容与音频不一致内容栏文本根据声音文件修改一致,点击“下一句”坏数据无点击“标记不可用”或“配置的快捷键”,继续标注群音信息服务有限公司2014年3月9日星期日1.好数据文本录入标准3.1内容文本要与真实音频发音完全一致,不可增减字、错字;人名、小区名、道路名无法确定用字时,录入准确发音的常用字;3.2真实发音为“我去哪哪里呀”,“哪”字有重复,就要忠实地录成“我去哪哪里呀”。另由于口音或个人习惯导致的音变,按普通话标注音录入;3.3多音字或生活中

3、有不同发音的字,也按普通话标注音录入。例如,“办公室”的“室”,有人说成shǐ,有人说成shì,都录成“办公室”;3.4对于儿化音,也要忠实于发音录入。例如,发音是“哪儿”,就录成“哪儿”,没有发出儿化音的,就录成“哪”;3.5发音停顿录入文本连续,不需要空格或添加符号,英文缩写除外;例如,“what’syourname”中的撇号必须是英文状态下录入,特殊符号读法“#”录入“井号键”;“*”录入“星号键”;3.6不允许录入阿拉伯数字,需转换汉字,例如,“1”转”一“或“幺”根据真实发音录入,如读“12

4、0”可录入“幺二零”;也可点击【数字转中文】【数值转中文】进行“阿拉伯”到“汉字”转换;3.7语句中包含英文单词或字母,根据发音录入,字母要大写,字母与字母之间空一格,“单词要小写”,单词与单词之间空一格,汉字与字母或单词之间不需要空格;例如,发音一个字母读“OPPO”则按照字母录入,若是连读“oppo”,则按照单词录入;例如、如“三W点”则根据真实发音录入;3.8语气词用最常用写法,例如嗯,哦,哎,呃,啊,啦,嘞,吗,嘛(陈述句用)等,识别结果有语气词或“干嘛”不影响语义无需修改。2.坏数据判断标准

5、Ø坏数据是指声音文件中出现的非正常语音,语音波形不完整、语音不清晰、纯方言、没有人说话等现象,具体如下:4.1音频无主发音人类型:Ø纯环境噪音;两个人对话、纯人声噪音;纯音乐、说唱;纯人声非语音,例如笑,打喷嚏,咳嗽等;纯机器人的声音;4.2音频有主发音人类型:1)语音波形不完整现象指语句首字音或尾字音被截,打开音频前后无静音段,从听感上首字音或尾字音不完整,此为截断数据;2)发音人语音不清晰类型:例如方言、口音严重,除英语以外其他外语;群音信息服务有限公司2014年3月9日星期日1)发音人录音效果差

6、:发音人喷麦严重,发音人嘘嗓子说话;2)设备噪音类型:QQ滴滴音、手机震动音、log音波形大于主说话人且影响识别结果;3)人声噪音类型:主发音人对系统说话时,把旁边人声音录进去且声音清晰影响识别结果;4)严重上下截幅类型:主说话人声贝高造成波形超出上下边界线且影响识别结果。2014-3-923:16

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。