欢迎来到天天文库
浏览记录
ID:35453964
大小:73.18 KB
页数:3页
时间:2019-03-24
《自然对话标注规范》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、自然对话标注规范看完之后找我要语音,价格150元一个小时1、标注之前需要进行的工作1)确定你所拿到的语音是否为电话录音(而不是两个人而对而聊天录音),是电话录音才进行标注,不是电话录音的此语音作废。2)不能是讲故事、说相声或者念课文等等3)确定所要标注语音的近端音(一般会在文件夹中的txt文档中显示)。4)关于什么是近端音,用一个例子解释:甲和乙进行手机通话,甲的手机安装了录音软件,在通话过程中将语音录了下来,那生成的录音小甲说的话就是近端音,乙说的话是远端音。5)1、语音是否合格问题。标注员在标注的过程中要注意一下语音是不是合格,避免口做工。语咅核查标准
2、有三:格式上,语咅的比特率是256kbps;类型:媒体文件位速:t56kb»大小:11.9业内容上,第一,双人电话录音;第二,自然聊天对话。2、是否标注需要标注的是近端音,不需要标注远端音,远端音切掉即可。3、是否有效(此条规则针对近端音,近端音又分为有效音和无效音):无效的不用管,什么也不用标注判断是否为有效或无效语音的原则:1)语音重叠问题。远端音和近端音说话重叠时(也就是两个人说话重叠的部分)切掉,标为无效。2)如果一句话声音极小,小到几乎听不到,则标注为无效。3)如果一句中只含有噪声或者静音,则标注为无效。4)如果只有一个“嗯”、“啊”、“哇曝”、
3、“喂”等,则标注为无效。5)一句话有听不清楚的部分,写不出止确结杲的情况下,切掉标为无效即可,注意尽量不要截再波峰上。4、语音内容及切分:1)•一句话尽量切为10-15个字左右,长句子要从停顿的位置切分开,并尽量保证句意完整。句了首尾尽量留200-300ms静咅段,如本身没有这么长静音的情况下不强求。2、静音处截断问题。在切分语音的时候保证切分点在静音段上,也就是说不要切在音节上。标注时不需要加标点符号,有断句处用空格隔开即可.2)•两个人先后说话没有重叠的要切分开。4)・语咅内容必须和听到的语咅完全一致,不能多字、少字、错字。5)・阿拉伯数字要写成汉字形
4、式,如“一二三”,I何不是“123”。注意区分“一”和“幺”。“二”和“两”6)・标注屮只能含有屮文、英文以及英文屮特殊符号,如rm屮的,。如果符号被读出,则根据发音需写成相应汉字或英文。例如“0'读“at”时要写为“AT”,“.com”读成“点com”时要写成“点COM”7)•语气词:音频中说话人清楚地讲出的语气词,如“呃啊嗯哦唉呐”等,要按照正确发音进行转写。语气词除了“了不”没有口字旁,其他基木上都有口字旁。8)・标注内容的完整性要与实际发音一•致,不得删减。9)・说话人发咅不标准的时候,要按这个咅的标准发咅来标。10)•网络用语,huiji,要写成
5、灰机,jiangzi要写成酱紫,网络用语按照网络用语写12)・有的咅找不到对应的汉字,标成无效。(特殊情况,“duang〃这个音没有对总结,只要口己听不懂的就切掉,只标注听得懂的。5、文字内容中的噪音标记(有效近端音中出现噪音才标记出来,其他情况不用标记噪音)::表示说话人的各种非文木内容的噪声信息,包括唇咂嘴,咳嗽,清嗓子声,啧啧声,笑声。:非人发岀的声音,主要是一些偶然出现的噪声,例如:鼠标操作声音,敲击键盘的声音等。:稳定的噪声,主要是录音环境的一些非偶然噪声,例如周围音乐,风声,空调声等。:非说话人的周围人发
6、出的噪音,包括唇咂嘴,咳嗽,清嗓子声,啧啧声,笑声。问:噪咅符号什么时候加?答:明显的噪音11作为独立的声音段时才加(说话同时的噪音不用加,不明显的噪声也不用加)。例1:A说完“今天”后笑了下,继续说“我去吃饭了”,那么标为“今天我去吃饭了”例2:A说话吋,周围产生了噪音,那么因为噪音不构成独立声音段,所以不需要标噪咅符号。例3:如在整个语音都存在音乐声比较明显,同时开头和结尾存在静音段情况下,在开头结尾处加上。(如果开头和结尾没有静音段,则不用加,咅乐声不明显也可以忽略不加。)6、遇到远近端咅分辨不清或者其他实在无法确定的情
7、况,就不标了,千万不能乱标。记住耍在你标的那个文件夹里面建一个文档,注明这个文件夹里哪条语咅存在问题,因为什么原因没有标注。7、每个提交的语音包有两次免费质检的机会,质检三次或三次以上,每增加一次扣除5%的质检费。四、标注准确率要求:按句统计标注准确率要求达到95%以上。请严格按照此标准进行标注。
此文档下载收益归作者所有