欢迎来到天天文库
浏览记录
ID:27902426
大小:46.50 KB
页数:11页
时间:2018-12-06
《商业银行智能语音识别技术应用与发展.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、商业银行智能语音识别技术应用与发展商业银行智能语音识别技术应用与发展商业银行智能语音识别技术应用与发展商业银行智能语音识别技术应用与发展商业银行智能语音识别技术应用与发展商业银行智能语音识别技术应用与发展 近年来,云计算、大数据、物联网和人工智能等FinTech技术快速发展,促进了语音识别准确度的迅速提升,为商业银行引入智能化服务提供了重要的技术资源,语音识别技术将掀起商业银行服务模式的变革,为智能化服务增加新的元素。本文从商业银行实际出发,对该技术的发展进行梳理,并提出商业银行语音识别“4I”应用框架,以期推动FinTech时代下银
2、行综合智能化服务能力进一步提升。 一、语音识别技术概述 语音识别通过运用语言学、计算机科学、电子工程、模式识别、概率论、信息论以及人工智能等领域的方法和技术,使计算机设备能够精准识别和翻译语音信息,也被称为自动语音识别(ASR)或者语音到文本(STT),在金融、电信、电子商务、医疗、制造等行业得到了广泛应用。 1.语音识别技术发展 语音识别技术按照发展和应用程度,可分为早期实验研究阶段、实用阶段、现代语音识别系统开发应用阶段。 (1)早期实验研究阶段 20世纪50年代,世界上第一个能识别10个英文数字发音的实验系统在贝尔实验
3、室诞生;20世纪60年代,出现了动态时间规整(DTW)算法以及将语音信号以帧为单位切分的技术,实现了有效的语音特征提取;20世纪80年代,识别算法从基于标准模板的方法转向基于统计模型的方法,产生了基于高斯混合隐马尔可夫模型(GMM-HMM)的声学模型和以N元语法为基础的语言模型,实现了大量词汇、非特定人以及连续语音的识别。 (2)实用阶段 进入20世纪90年代后,语音识别的系统框架趋于稳定,随着计算机运算能力的快速提升以及语音识别在系统自适应、参数调优等方面的成熟,语音识别技术在商业上逐步成功运用,语音识别技术进入实用阶段。 (3
4、)现代语音识别系统开发应用阶段 近些年,随着大数据和深度学习技术的发展,深度学习方法逐渐被引入到语音识别系统中,相较于传统的语音识别技术,识别性能获得了显著提升。 目前,市场上的语音识别系统大多基于深度神经网络模型进行建模,大幅提升了各种应用场景下语音识别的准确度和可靠性,使语音识别技术进入了新的应用阶段。 2.语音识别的分类 按照说话人的不同,语音识别技术分为两类:一是特定人语音识别,它用来对特定人的说话内容进行识别,同时基于说话人的声纹信息,应用声纹鉴别技术,实现基于声音的身份识别;二是非特定人语音识别,通过采集大量语音数据
5、来进行训练建模,实现非特定人的语音识别,可以被任何说话人使用,更符合实际需要,通常要难于针对特定人的语音识别任务。 根据识别词汇对象的不同,语音识别任务分为三类:一是孤立词识别,可识别事先已知的词语,比如“存款”“取款”等,可应用到自动控制领域;二是连续语音识别,可识别自然交流的连续语音,比如一个句子或者一段话,可应用于语音输入系统;三是关键词识别,从连续语音中检测出特定关键词出现的位置,而不需要识别出整个句子,可应用于语音监听任务。 根据识别服务的实现方式,语音识别分为两类:一是云端方式,依赖网络并依托强大的后台模型,识别更准确,
6、目前已经有多款基于云端的语音助手工具;二是离线方式,不依赖于网络,应用场景更灵活,但识别精确度受到计算资源的限制,一般离线识别会结合专用芯片,通过压缩模型规模,将计算量控制在合理的水平。 3.语音识别技术原理 传统语音识别技术的基本过程如图1所示,主要包括如下内容。 (1)预处理 这一过程主要包括对输入的原始语音信号进行采样,去除个体发音差异以及设备环境等引起的背景噪声,通过分帧将语音信号切分为短片段,并运用端点检测技术确定出语音的起点和终点。 (2)特征提取 这一过程主要包括从预处理过的语音信号中,抽取出反映语音本质的
7、特征参数,形成特征矢量序列。通常由频谱衍生出频率倒谱系数(MFCC),使用长度为10ms的帧分割语音波形,然后从每帧中提取出特征向量。 (3)声学模型训练 基于语音数据库进行训练,通过计算语音特征和发音模板的相似度,为每个声学单元建立模型参数,识别时将待识别的语音特征参数与训练得到的声学模型进行匹配,获得识别结果。传统语音识别系统大多采用GMM-HMM进行声学模型建模。 (4)语言模型训练 根据语言的语法规则,对训练文本数据库进行语法、语义分析,建立描述给定词序列在语言中出现的概率分布,在给定若干个词的情境下能够判定下一个最可能
8、出现的词语,缩小搜索范围,进而提高语音识别性能以及准确率。 (5)语音解码 语音解码指语音技术中的识别过程,针对输入的原始语音信号,经预处理和特征提取后,结合训练得到的声学模型、语言模型以及发音字典建立
此文档下载收益归作者所有