欢迎来到天天文库
浏览记录
ID:14482192
大小:64.50 KB
页数:5页
时间:2018-07-29
《语音合成系统的关键技术》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、语音合成系统的关键技术清华大学计算机系智能技术与系统国家重点实验室 陶建华蔡莲红---- 计算机语音合成系统又称文语转换系统(TTS系统),它的主要功能是将计算机中任意出现的文字转换成自然流畅的语音输出。一般认为,语音合成系统包括三个主要的组成部分:文本分析模块、韵律生成模块和声学模块。文本分析----语音合成系统首先处理的是文字,也就是它要说的内容。文本分析的主要功能是使计算机能从这些文本中认识文字,进而知道要发什么音、怎么发音,并将发音的方式告诉计算机。另外,还要让计算机知道,在文本中,哪些是词,哪些是短语或句子,发音时应该到哪里停顿及停顿多长时间等。其工作过程可以分为三个主要步骤:
2、----(1)将输入的文本规范化。在这个过程中,要查找拼写错误,并将文本中出现的一些不规范或无法发音的字符过滤掉。----(2)分析文本中词或短语的边界,确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。----(3)根据文本的结构、组成和不同位置上出现的标点符号,确定发音时语气的变换以及不同音的轻重方式。----最终,文本分析模块将输入的文字转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。----传统的文本分析主要是基于规则(Rulebased)的实现方法。其主要思路是尽可能地将文字中的分词规范、发音方式罗列起来,并总
3、结出规则,依靠这些规则进行文本处理,以获得需要的参数。具有代表性的方法有:最大匹配法、反向最大匹配法、逐词遍历法、最佳匹配法、二次扫描法等。这些方法的优点在于结构较为简单、直观,易于实现;缺点是需要大量的时间去总结规则,且模块性能的好坏严重依赖于设计人员的经验以及他们的背景知识。由于这些方法能取得较好的分析效果,因此,直到目前,它们依然被广泛使用。----但是近几年来,随着计算机领域中数据挖掘技术的发展,许多统计学方法以及人工神经网络技术在计算机数据处理领域中获得了成功的应用,计算机从大量数据中自动提取规律已完全可能并正在实现。在此背景下,出现了基于数据驱动(Datadriven)的文
4、本分析方法,具有代表性的有:二元文法法(DiGrammarMethod)、三元文法法(TriGrammarMethod)、隐马尔可夫模型法(HMMMethod)和神经网络法(NeuralNetworkMethod)等。一些比较著名的系统,如IBM的语音产品就采用了隐马尔可夫模型法。这类方法的特点是,设计人员根据统计学或人工神经网络方面的知识,设计出一种可训练的模型,并用大量已经存在的数据去训练,将训练得到的模型用于文本分析,而系统设计人员并不需要太强的语言学背景知识。对于工程技术人员来说,这类方法无疑减轻了他们研究语言学的负担。目前,这类方法在文本分析精度上,已达到或部分超过了基于规
5、则系统的分析结果,且容易实现多语种的混合,因而越来越广泛地被接受并使用。这类方法的缺点在于,尽管系统容易获得文本信息的共同特征,但忽略了一些个性,而往往这些个别因素对最终的发音方式影响很大。因此,有些系统采取了两类方法相结合的方式。韵律生成----任何人说话都有韵律特征,比如在汉语中,音节有不同的声调、语气和停顿方式,发音长短也各不相同,这些都属于韵律特征。韵律参数则包括了能影响这些特征的声学参数,如基频、时长、音强等。----文本分析的结果只是告诉了计算机发什么音,以及以什么方式发音,这种发音方式还只是抽象的。而要发音的声调是二声还是三声,是重读还是轻读,到哪里停顿,等等,这些最终系统
6、用来进行声信号合成的具体韵律参数还要依靠韵律生成模块。与文本分析的实现方法相类似,韵律的生成方法也分为基于规则和数据驱动两种方法。----早期的韵律生成方法均采用基于规则的方法。这种方法要求研究人员有大量的音韵学背景知识,需要对在各种特定的情况下,如声音在句子中的不同位置、不同声调及句子的不同语气甚至是不同的词性下,对基频、时长和音强等各个声学参数变化的详细情况加以总结、归纳。由于各个语种的韵律特征不同,因此,针对不同的语种,必须找出与该语种相关联的韵律特征。目前,基于规则的方法仍然被认作是行之有效的方法,大部分汉语语音合成系统依然采用这种方法。虽然经过研究者的努力,这种方法能达到较好的
7、韵律生成效果,但它也受到很多限制。如前所述,基于规则的方法要求系统设计人员花费大量的时间和精力去研究不同语种普遍存在的韵律特征,而这是一个非常耗时的工作,且由于规则的复杂性,其生成语音的自然度也受到较多的限制,也就限制了它的一些性能。另外,基于规则的系统方法往往只追求发音的自然,而掩盖了人的个性。如让系统模拟某一特定人的发音,就显得无力,除非是针对专人设计的一些专用模型。----目前,通过神经网络或统计驱动的方法进行韵律生成已获得成
此文档下载收益归作者所有