欢迎来到天天文库
浏览记录
ID:5274356
大小:181.41 KB
页数:14页
时间:2017-12-07
《应用htk搭建语音拨号系统》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、应用HTK搭建语音拨号系统苏统华哈尔滨工业大学人工智能研究室2006年10月30日声明:版权所有,转载请注明作者和来源该系统能够识别连续说出的数字串和若干组姓名。建模是针对子词(sub-word,eg.音素),具有一定的可扩充性。当加入一个新名字时,只需修改发音词典和任务语法即可。模型为连续混合高斯输出,运用语音决策树聚类形成的绑定状态式三音素。1.数据准备需要录制训练数据和测试数据。为进行校准,还需要数据的标注文本。这里用任务语法(taskgrammar)产生真值文本(groundtruth)。为了处理训练数据,需要定义一个语音集合和一个字典用以涵盖训练和测试数据中涉及的单词。[step1
2、]任务语法定义任务语法以包含变量的正则表达式形式定义,存储在文件gram里:文件名:gram$digit=ONE
3、TWO
4、THREE
5、FOUR
6、FIVE
7、SIX
8、SEVEN
9、EIGHT
10、NINE
11、OH
12、ZERO;$name=[SUE]LAW
13、[JULIAN]TYLER
14、[DAVE]WOOD
15、[PHIL]LEE
16、[STEVE]YOUNG;(SENT-START(DIAL<$digit>
17、(PHONE
18、CALL)$name)SENT-END)上面的语法是高层表示,必须通过HParse转成HTK可用的底层表示。底层表示存于文件wnet中:HParsegramwdnet文件名:wdnetVERSIO
19、N=1.0N=31L=62I=0W=SENT-ENDI=1W=YOUNG……J=0S=2E=0……J=61S=0E=29苏统华.哈尔滨工业大学人工智能研究室.2006[step2]字典定义此例中利用BEEP语音字典,除去其中的重音符,并在每个发音后加入sp(shortpause,小停顿)。如果有哑音标志,就用MP命令把sil和sp合并成sil。这些处理命令放在global.ded编辑脚本中:文件名:global.dedASspRScmuMPsilsilsp执行HDMan生成与任务相关的发音词典dict1:HDMan-m-w.listswlist-n.listsmonophones1-
20、ldlog.dictdict1.dictbeep.dictames上面的names文件是手工制作的专有人名的发音(包括SEND-START,SEND-END),文件wlist是出现在任务语法中的所有单词的有序列表,文件monophones1是用到的音素的列表,dlog为参数文件。注1:实际上,这里应该手工修改dict1,为SENT-END和SENT-START加上无输出标志,为了展示队后面步骤地影响,这里故意不添加。文件名:.dictdict1CALLkaolspDAVEdeyvspDIALdayaxlspEIGHTeytspFIVEfayvspFOURfaospFOURf
21、aorspJULIANjhuwlianspJULIANjhuwlyaxnspLAWlaospLEEliyspNINEnaynspOHowspONEwahnspPHILfihlspPHONEfownspSENT-ENDsilSENT-STARTsilSEVENsehvnspSIXsihksspSTEVEstiyvspSUEsuwspSUEsyuwspTHREEthriysp2应用HTK搭建语音拨号系统TWOtuwspTYLERtaylaxspWOODwuhdspYOUNGyahngspZEROziarowsp文件名:.dictamesDAVEdeyvJULIANjhuwlyaxnJULI
22、ANjhuwlianLAWlaoLEEliyPHILfihlSENT-END[]silSENT-START[]silSTEVEstiyvSUEsuwSUEsyuwTYLERtaylaxWOODwuhdYOUNGyahng为了避免在dlog里出现烦人的wanning,那就在names和beep同一目录下分别建立同名的编辑脚本,内容为空即可。文件名:names.ded文件名:beep.ded[step3]录制语音数据HSGen工具可以生成符合taskgrammar的句子,用来指导录音(HTKbook里叫sentenceprompts):HSGen-l-n140wdnet.dictdict1>
23、.labelstrainpromptsHSGen-l-n15wdnet.dictdict1>.labelstestprompts根据上述指令文件,录制相应的140个训练用语音数据文件和15个测试用语音数据文件。一个录制的例子如下:HSLab.dataTrainspeechS0001注2:随本文的压缩包没有包括这些数据文件,但包括了它们对应的特征文件,所以对整个实验没有什么影响。3苏统华.哈
此文档下载收益归作者所有