欢迎来到天天文库
浏览记录
ID:54850306
大小:18.50 KB
页数:7页
时间:2020-04-22
《智能语音机器人的设计与实现.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、智能语音机器人的设计与实现 摘要:介绍了智能语音机器人的总体设计,包括硬件设计和软件设计,对语音识别的方法、识别过程和语音合成过程进行了分析,重点介绍了语音识别中的端口检测方法,并给出了测试结果。 关键词:机器人;语音识别;端点检测;语音合成 中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)30-7498-03 IntelligentVoiceoftheRobotDesignandImplementation GUANHong,ZHANGShuai,LEIHong-le (ShandongUniversityof
2、ScienceandTechnology,Qingdao,China) Abstract:Introducestheoveralldesignoftheintelligentvoicerobot,includinghardwaredesignandsoftwaredesign,thispaperanalyzesthemethodsofspeechrecognition,theprocessofspeechrecognition,andspeechsynthesisprocess,introducesthemethodofEndpointdetecti
3、onofspeechrecognition,andtestresultsaregiven. Keywords:robot;speechrecognition;endpointdetection;speechsynthesis 语音识别技术是通过机器人的理解和识别将人类的语音中的词汇内容转换为计算机可读的输入,例如文本或者命令,是一种多维模式识别和智能计算机接口的范畴。语音识别技术主要包括模式匹配准则、特征提取技术、及模型训练技术3个方面,所涉及的领域很广泛,包括模式识别、信号处理等。 让机器人能够听懂人类的语言并且能够按照人的口头命令行动,从而实
4、现人际交往一直以来都是人类的梦想,本文所研究的机器人语音识别,对于服务机器人的应用领域具有重要的现实意义。 1机器人整体设计 整个系统采用CPU作为核心控制,外加音频输入输出模块、视频输入输出模块、触屏模块、显示模块、电源模块和电机驱动模块。 运动模块主要由一系列电机驱动器组成,通过CAN总线与CPU进行通信,音频模块用来采集音频信息,视频模块用来采集视频图像信息,触屏模块和显示模块为机器人提供了良好的人机交互方式。各个部分的相互关系如图1所示。 1.1机器人的硬件设计 机械动作模块(即硬件设计)包括左右手、左右肘、左右肩、腰部、头部的直流电
5、机控制器,配合语音能够完成“握手”、“再见”、“两手自然交叉,放在腹前”等等正式的迎宾动作及舞蹈表演,机械动作模块通过CAN总线通信模块与主控器联系。机械动作模块关系如图2所示。 1.2机器人的软件设计 该机器人的实现其全部功能的过程就是整个软件的实现过程,系统软件设计的基本流程,如图3。 2语音识别和端点检测的实现 语音识别系统本质上是一种多维模式识别系统,语音识别主要包括预处理、特征提取、模式匹配三个部分。语音识别系统中最基本的模块就是语音端点检测,从一段语音信号中找出语音的终点和起点,使得计算机只处理和保存有用的语音信号。 2.1端点检
6、测 端点检测(end-pointerdetection)是将语音数据(speech)从背景噪声中分离出来的一项技术,主要应用于语音识别领域,可以很大程度地降低识别器的运算量,从而能有效地提高识别效率以及识别效果。下面描述两级判别法定义和检测方法: 1)短时能量 语音端点检测一般是按照帧进行处理,每帧的长度各不相等。每个语音帧的短时平均能量En为: 其中Wγ为帧长,Sw(n)为时刻n的加窗语音,但为了节约时间,减少计算量,而是采用每个点上幅度值的绝对值之和作为短时能量值: 。 2)短时平均过零率 每个语音帧的短时平均过零率Zn为: ,其中
7、是符号函数。 3)两级判别法 两级判别法是利用语音的短时能量和平均过零率的性质进行的端口检测的,其步骤可以归结为: A.定阈值 预先设定阈值Eh、El、Zth,其中Eh、El分别为高、低能量阈值,Zth为过零率阈值。由于采集的声音信号中最初的短时段多为无声或背景噪音,这样就可以利用已知为“静态”的最初几帧信号计算其过零率阈值Zth以及高、低能量阈值Eh、El。 在计算Eh、El、Zth时,每一帧的时间选取为20ms,并设定语音的前10帧为静音阶段,通过这10帧计算出Eh、El、Zth的值。 前10帧短时能量最高的帧的短时能量为Emax、最低
8、的为Emin、平均能量为Z、前10帧的能量的方差为F。 B.寻找语音的起始点和终止点 首先
此文档下载收益归作者所有