基于htk的发音评估系统设计与实现

基于htk的发音评估系统设计与实现

ID:34547042

大小:191.90 KB

页数:3页

时间:2019-03-07

基于htk的发音评估系统设计与实现_第1页
基于htk的发音评估系统设计与实现_第2页
基于htk的发音评估系统设计与实现_第3页
资源描述:

《基于htk的发音评估系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于HTK的发音评估系统设计与实现1引言随着信息技术的不断发展,计算机辅助发音训练(CAPT)[1]作为一种新兴的跨学科技术得到了越来越广泛的应用。与传统的学习方式相比,计算机辅助发音训练摆脱了时间、地点的限制,能让学生在更轻松的环境中学习,而且可以针对不同学生的水平进行调整,具有很大的灵活性[2]。发音评估是计算机辅助发音训练的一个重要功能,能对给定的语音的发音准确度给出客观的评价,辅助语言学习者进行发音学习。由于受发音环境、语速、发音者不同等因素的影响,通过直接将待测语音与标准语音进行比对的方式很难客观反应出待测语音的准确度。常用的方法

2、是采用语音识别技术构建语言评估模型,用大量标准语音对其进行训练,然后将待测语音用该评估模型进行评估[3]。这样的评估方法与专家评分的结果具有很大的相关性,但由于理论比较复杂,实现过程有一定的难度。本文给出了一种基于HTK工具包[4]的发音评估系统实现方法,具有很好的评估效果。2HTK工具包简介HTK(HiddenMarkovModelToolkit)是语音识别领域着名的开源工具包,主要用于训练和使用基于隐马尔可夫模型的语音识别系统,并对识别结果进行性能分析。该工具包最早由剑桥大学智能机器实验室开发,主要用于大型词汇语音识别系统,后来Entr

3、opic公司获得其销售权,现为微软公司所有。由于其开放性,任何人都可以进行修改或者二次开发,目前最新稳定版本为3.4.1。HTK主要用于语音识别研究,同时在字符识别、语音合成、DNA排序等方面也有广泛应用。可知,HTK工具大致可以分为模型构建工具和识别工具。HTK工具的使用流程可以分为四个步骤。首先是数据采集与处理,主要包括HLED、HSLAB、HCOPY等工具,其目的是将各种方式输入的音频数据转换为需要的语音特征参数文件,同时对相应的文本进行处理,属于数据准备阶段;然后采用训练工具进行模型参数训练,主要包括HREST、HEREST、HIN

4、IT、HHED等工具。训练完成后可以得到基于标准语音的识别模型,采用配置文件的方式对参数进行保存。识别工具主要包括HDECODE、HVITE和HLRESCORE,根据识别网络输出文本。最后用分析工具HRESULTS对识别结果进行评估。HTK采用C语言编写,测试用例采用Perl脚本完成,各个功能相对独立,同时支持Windows、Linux等多个操作系统,具有很好的重用性。3发音评估系统的整体框架发音自动评估系统整体上可以分为资源数据、发音评估引擎、用户图形界面三大部分,如图2所示。发音评估引擎是整个系统的核心,主要用于构建隐马尔可夫模型、对参

5、数进行训练、生成状态网等,通过对HTK工具包进行二次开发来实现。用户图形界面是人机交互的接口。管理员通过该模块对系统进行配置,如参数设置、评估模型训练等,而受测者则可进行录音评分和波形查看。同时该模块还负责评估分数的计算与显示。资源数据是发音评估的基础,主要包括用于评估模型训练的标准发音文件,各种性能配置参数以及其他文本资源等。发音的评估在语音输入结束后开始进行,对实时性要求不是特别高,为了便于开发与升级,本系统采用类似于UNIX风格的子程序模式,即每个子程序完成一个独立的功能,主程序根据逻辑调用相应的子程序,这样不仅带来了开发维护的便利性

6、,也提高了系统的稳定性。每个子程序作为一个独立的模块,这些模块的设计遵循模块内高聚合,模块间低耦合的原则。模块间的通信采用文件传递的方式,比如模块A的输出为模块B的输入,将A的输出内容写入到参数文件中,模块B通过读取该参数文件来进行下一步操作。由于目前个人电脑和学校语音室使用的操作系统大部分为WindowsXP,所以选择该系统作为发音自动评估系统的运行和开发平台。开发工具采用微软公司的VisualStudio2008SP1,开发语言为C++,程序框架为MFC,采用文档视图结构。参数文件采用标记语言格式。4发音评估系统的模块设计4.1波形显示

7、与音频播放模块波形显示模块的功能主要包括两部分。对于系统管理人员,可以在模型训练时通过波形显示模块调整语音标记文件,确保端点检测的结果和词典发音一一对应,提高了训练数据的可靠性。对于语言学习和测试人员,可以通过显示的波形和语音识别的结果来发现自己发音的不足之处,进行有针对性的练习。波形显示模块的流程图如图3所示。根据后缀名判断文件类型,采用相应的函数打开文件,读取文件基本信息,若文件不属于支持的类型,则给出错误提示。然后根据读取到得音频数据文件信息和文件长度计算该音频文件的持续时间,将其与画图区域的横坐标相除得到单位长度代表的时间。获得以上

8、信息后,根据这些信息开始描点画图。循环读取音频文件的每一个采样值,根据量化位数计算纵坐标值,根据单位时间长度计算横坐标,将两者结合即可得到一个坐标值,然后进行描点和画线,如此反复

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。