语音识别中一种快速新词增强方法.doc

语音识别中一种快速新词增强方法.doc

ID:56306841

大小:91.16 KB

页数:6页

时间:2020-06-22

语音识别中一种快速新词增强方法.doc_第1页
语音识别中一种快速新词增强方法.doc_第2页
语音识别中一种快速新词增强方法.doc_第3页
语音识别中一种快速新词增强方法.doc_第4页
语音识别中一种快速新词增强方法.doc_第5页
资源描述:

《语音识别中一种快速新词增强方法.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、语音识别中一种快速新词增强方法1.背景介绍语音识别技术是信息技术领域十大重要的科技发展技术之一。它是一门交叉学科,正逐步成为信息技术中人机接口的关键技术。语音识别技术使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的高技术产业。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场,并且已经进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。简单地说,语音识别技术是将声音转变成文本的技术。一个语音识别系统基于一个语音模型和一个语言模型来表达识别语音所需要的知识,其中语音模型(通常用深度神经网络)用来描述语音在信号层

2、的分布特性,而语言模型用来表征语言信息,用以限制系统能识别的句子范围。语言模型基于一个系统词表,只有在词表中出现的词才有可能被识别出来。图1给出了一个语音识别系统的基本框架。语音识别系统声学模型语言模型系统词表你好....图1:语音识别框架2.问题描述信息社会的快速发展给语音识别系统带来了巨大挑战,特别是随着人们接收的信息越来越多,新词不断涌现,如“颜值”、“吐槽”等。这些新词因为不在语音识别系统词表中,因此很难被识别出来。传统解决新词的方法是收集每个新词的训练语料,让其与原语料合并,重新训练语言模型。这一方法需要大量的计算资源,无法适应大规模在线系统的需求。3.发明

3、要点3.1基于FST附加边的新词增强方法本发明提出一种基于有限状态转移机(FST)的新词增强的方法,该方法将原始语言模型表示为FST,通过在FST图上加入附加边来代表新词,从而使更新后的FST具有识别新词的能力。由于现代语音识别系统多使用FST作为识别过程的数据结构(解码图),因此我们的方法相当于在构造该数据结构的过程中加入一个新词增强步骤,从而提高系统对新词的识别能力。如图2所示。N-gram语言模型语言模型到FST转换FST新词增强语言模型FST与其它FST组合解码图应用于语音识别系统图2:基于FST的新词增强示意图具体而言,对一个待加入的新词A,我们选择它的一个

4、近义词A’,寻找在语言模型FST中表示A’的所有边,并为每条边加入一个“附加边”,这一附加边的进入和离开状态和A’的边一致,但其标注符号为新词A,其权值表示为A赋予的出现概率。如图3所示,其中红色曲线和标注表示新加入的附加边。由于附加边的加入,新词A会出现在解码图中,可以在解码过程中被识别。特别重要的是,因为附加边是加在新词的近义词所对应边上,这意味着新词增强事实上利用了近义词在词义和句法上的相似性,具有很强的针对性和精确性。A:0.212A’:0.5图3:对应近义词A’的一个新词A的附加边3.2基于词向量的新词增强方法上述附加边新词增强方法需要定义近义词,即需要人为

5、定义,这对大规模新词加入很不方便。本发明进一步提出基于词向量的自动发现近义词的方法。该方法将所有词(系统词典中的词和新词)都映射到一个向量空间中,表示为词向量,并利用在这一向量空间的中的余弦距离计算词间的相似度。对任何一个新词,可以通过该方法得到一个或若干个相似对,而不必人为定义。4.发明内容和系统实现4.1系统架构图4为基于近义词附加边的新词增强模型的系统结构,该系统有两种方式,一种是手动定义近义词,一种是基于词向量的自动计算近义词。首先输入n-gram语言模型,构建FST。基于FST,基于近义词表加入附加边表示新词,生成可识别新词的解码图。近义词表由两种方式生成,

6、一种由手工定义近义词,比较精确,但繁琐,不适合大量新词加入;另一种是基于词向量的自动加入,方法快捷,但需要包含新词的数据对词向量进行训练。N-gram语言模型构建FST模型手动定义近义词用词向量计算词间距离自动生成近义词生成新词附加边生成解码图图4.基于近义词附加边的新词增强模型4.2基于FST附加边的新词增强设有一个新词集X={,,…,}需要增强,对于每一个都有一个近义词集={…,}。对任意一个,在FST中寻找所为标注为的边,加入附加边并标注为。为量化近义词间的相似性,我们定义为与的相似度,并以该相似度作为新加入边的权重。在基线系统中,近义词集和相似度都由人为确定。

7、图5给出一个在FST中加入新词c的过程,其中词表内词a为新词c的近义词,且相似性定义为0.3。其中(a)表示在加入新词前的FST,(b)表示加入新词c后的FST。012a:a/1012a:a/1b:b/2c:c/0.3b:b/2(a)(b)图5:基于近义词的新词增强模型4.3基于词向量的自动增加新词方法在4.2节中,我们手动定义近义词来增强新词。当面对大量新词时,手动定义的时间成本较高,且定义近义词容易发生错误。本发明提出利用词向量自动发现近义词的方法来代替人工定义,节省了大量的时间和精力。词向量将词表达为连续向量空间中的点,如图6所示。可以看到,由

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。