人机语音交互技术

人机语音交互技术

ID:5295290

大小:2.41 MB

页数:56页

时间:2017-12-07

人机语音交互技术_第1页
人机语音交互技术_第2页
人机语音交互技术_第3页
人机语音交互技术_第4页
人机语音交互技术_第5页
资源描述:

《人机语音交互技术》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、人机语音交互技术Human-MachineSpeechInteractiveTechnology俞一彪2013年7月10日苏州大学电子信息学院信号与信息处理研究室语音技术研究室交互:不同对象之间的交流与通信人类日常的基本行为、实现信息传递、增进了解交互的对象:人与人之间、人与机器之间、机器与机器之间交互方式的重要性:有利于提高传输效率,有利于双方的合作有利于产业的发展、提高经济与社会效益自然与和谐(自然和谐地进行交互)苏州大学电子信息学院信号与信息处理研究室语音技术研究室人类之间的交互语音文字、姿势、声音Howareyou?Fine,thankyou!语音:人类之间最常用的通

2、信方式苏州大学电子信息学院信号与信息处理研究室语音技术研究室人类与机器之间的交互MultimodalMasterAssistant语音人类机器Keyboard,mouse,handwriting,….语音:人机之间最自然和谐的通信方式苏州大学电子信息学院信号与信息处理研究室语音技术研究室需要解决的问题身份认证语意理解语音压缩编码语音应答苏州大学电子信息学院信号与信息处理研究室语音技术研究室基本研究内容语音识别与理解(speechrecognitionandunderstanding)语音合成与文语转换(speechsynthesisandtext-to-speechcon

3、version)说话人识别(speakerverificationandidentification)语音压缩编码(speechcompressionandcoding)苏州大学电子信息学院信号与信息处理研究室语音技术研究室技术发展背景1952:BellLabssingle-speakerdigitrecognizerWER<=2%1971:ARPAspeechunderstandingproject1000wordvocabulary,continuousspeech,multi-speakerOnly1CMUsystemachievedgoal1982:日本提出智能计

4、算机系统,目标90年实现1986:中国提出863高科技计划—自动语音翻译系统1997:Microsoft,IBM提出语音人机交互计划Fromlaboratorytopractice苏州大学电子信息学院信号与信息处理研究室语音技术研究室主要应用电子侦听(ASR,ASI)语音信息服务与电话银行(ASR,ASV,TTS)国际语音自动翻译(ASR,TTS)极低码率数字语音压缩编码与通信(ASR,TTS)系统语音控制操作(ASR,ASV,ASI)多媒体娱乐与新闻播报(ASR,TTS)残疾人辅助教学(ASR,TTS)安全控制与司法鉴定(ASV,ASI)苏州大学电子信息学院

5、信号与信息处理研究室语音技术研究室自动语音识别与理解Havinglonghistoryfrom1950’s语音信号中包含什么信息?语音识别基本思路1.分析信号提取语义特征信息•语义特征信息2.与标准语音进行语义特•说话人个性特征信息征比较•说话人情感特征信息3.寻找具有最大相似度的标准语音•说话人语气特征信息4.判别输出结果•其他生理和心理特征信息苏州大学电子信息学院信号与信息处理研究室语音技术研究室ASR和ASU系统的一般结构语音模型Rk训练词汇表k=1~M识别结果语音信号模式匹配预处理特征提取识别判决SC(T;Rk)识别输出识别句法分析测试模式T语意输出语义分析(1)特定

6、与非特定人(2)小词汇与大词汇量(3)孤立与连续语音识别与理解的区别?(符号与含义)苏州大学电子信息学院信号与信息处理研究室语音技术研究室预处理:noisedetection,endpointdetection,highfrequencyenhancement原始语音噪声消除端点检测energyZero-crossingsuzhoudaxue苏州大学电子信息学院信号与信息处理研究室语音技术研究室特征提取:speechsignalisreplacedbyshorttimefeatureparametervectorsvalue特征提取time短时、长时分布特征frequen

7、cy特征空间语音由此模型生成AmplitudePitchPulseVocaltractspeechmodelNoiseFiltersource苏州大学电子信息学院信号与信息处理研究室语音技术研究室常用特征参数DFT——反映语音信号的离散频谱分布。LPC——语音线性预测生成模型的参数,间接反映语音信号的频谱。LPCC——语音信号倒谱(Cepstrum),由LPC推导得到。MFCC——基于Mel尺度的倒谱,一定程度上反映了人的听觉感知特性。MLPCC——基于Mel尺度的LPC倒谱参数,由LPCC推导得到。P

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。