声纹识别技术在调度录音研究应用探究

声纹识别技术在调度录音研究应用探究

ID:6075587

大小:27.50 KB

页数:6页

时间:2018-01-02

声纹识别技术在调度录音研究应用探究_第1页
声纹识别技术在调度录音研究应用探究_第2页
声纹识别技术在调度录音研究应用探究_第3页
声纹识别技术在调度录音研究应用探究_第4页
声纹识别技术在调度录音研究应用探究_第5页
资源描述:

《声纹识别技术在调度录音研究应用探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、声纹识别技术在调度录音研究应用探究  【摘要】随着电网调控一体模式的应用打破传统的调度的业务范畴,调控拓展成为电网信息通信与设备的集中监视与指挥控制中心,各类生产业务的实时、准确信息逐步汇集到调度台。作为各类监控信息和管理流程的汇集点,调度下令的准确性直接关乎电网运行稳定性。本文针对调度录音系统的需求,通过对声纹识别技术在调度录音分析的应用进行分析研究,期望再进一步通过技术力量改变调度下令不规范,用语不真切的不良习惯,从根本上解决调度下令的多年诟病,提升电网调度下令水平。【关键词】调度;调度录音;录音分析;声纹识别1.研究目的及意义调度岗位业务范畴的

2、扩容,直接导致调度人员的工作量上浮,对于日常工作,指挥下令的操作更为频繁,目前调度电话录音每月数量已经接近万条,平均下来每一天都有三、四百条录音文件产生,其中正规调度下令录音占约2/5,目前针对录音内容,采用人工逐一收听的办法来判定录音内容是否规范,下令是否正确。通过人工抽检测听的方式,无法全面有效地评价调度质量,难以确保调度人员正确使用规定的调度术语且调度指令准确、无误;且人工抽检方式工作量大,效率低。6应用语音分析技术,将电网调度中心保存的非结构化的录音数据转为结构化的索引信息(文本结构),通过关键词检索、筛选、业务归类等处理及分析,建立声纹模型

3、以及设定关键字,如拉开、闭合、下令等关键字眼,对调度流程规范进行自动确认和问题分析,大幅度提高质检效率和覆盖面,提升电网调度质量,降低运营成本,提高运营管理水平。2.主要技术在调度录音分析的应用2.1调度录音预处理输入的调度语音信号需要进行预处理,预处理过程的好坏在一定程度上影响系统的识别效果。在调度录音预处理过程中,采用文本相关的声纹识别技术。语音转写(识别),是指将非结构化的语音文件转换为结构化的文本信息,是语音分析的核心功能。处理时将分离后的调度录音通过声学模型转换为汉语音标符号,再通过超大词汇网络的语言模型将音标信息识别为文本内容。由于调度员

4、的本地口音及中文自带的语调,必须优化声学模型和语言模型,以提升语音转写准确率。在具体实施过程中,采用识别词混淆网络(WordConfusionNetwork,WCN)作为文本分类器的输入,使用WCN中覆盖的词而不是只使用语音转写结果进行文本分类,提高对识别错误的鲁棒性。2.2调度录音索引及检索6目前,在调度录音中,同一个录音记录了调控人员和运行人员的全部对话。通过场景分割技术对两方通话内容进行分离,进而针对性对调度质量分别进行监控和分析,以识别问题发生点及问题内容。场景分割,是指对通话录音中的双方通话行为进行检测、切割和分离。经过预处理的调度录音经过

5、场景分割,再进行下一步的进行索引与检索。语音索引,是指将语音中包含的各类信息进行识别和归类,并形成方便查询统计的索过检测电话录音的基频、音高等变化幅度,预测情绪波动并定位其位置信息,分析出通话录音的平均语速以及语速变化,检出通话录音的静音时间等,生成标准XML格式的索引文件。索引内容包括:调控人员语音和运行人员语音的文字转写结果,如果是双声道语音,则给出声道信息(关键词位于哪个声道);通话的语音端点、语速等信息,主要包括调控人员和运行人员各自的每次说话的起止时间、语速(字/秒)、平均语速(字/秒)、异常情绪、静音时长等。语音检索,是指从索引文件进行关

6、键词信息的快速筛选,返回语音结果并进行自动统计。语音检索,支持逻辑组合检索、二次检索等功能。在语音检索应用中,通过使用“拉开”、“闭合”、“下令”、“复诵”等关键字进行检索,可快速定位与关键字相关的录音信息,从而进一步进行人工筛选。62.3调度录音模型选取在语音分析应用中,语音识别效果取决于声学模型和语言模型。声学模型方面,需要考虑人以及用户使用环境对语音的影响,建立了不同口音的声学模型和噪音处理的声学模型;语言模型方面,结合电力实际业务需要,通过对调度过程的分析,建立有针对性的业务语言模型。中文为带调的语言,声学特征除传统的MFCC谱特征外,也使用

7、代表调型的Pitch特征。一般调型的特征反映在韵母上,即一个韵母因为调型不同有4个单元。考虑到对于同一个韵母的4个单元,其MFCC特征是没有差异的;而对于不同韵母的同一个调,其Pitch特征也是很接近的。双流模型:采用双流声学模型建模技术,将MFCC和Pitch特征分成两个流:在Tri-phone决策树聚类阶段,对于声母部分,每个音素建一棵决策树;对于韵母部分,在MFCC流同一个音素不同调建一棵决策树,在Pitch流同一个调不同音素建一棵决策树。这种建模方式,大大降低了带调韵母需要的模型复杂度,也改善声学模型的精度。区分性训练:在最大似然(Maxim

8、umLikelihood,ML)模型训练准则基础上,将最小音素错误(MinimumPhone6Error,M

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。