汉语普通话双音子和三音子结构系统以及相关语料库的设计

汉语普通话双音子和三音子结构系统以及相关语料库的设计

ID:15858019

大小:41.00 KB

页数:5页

时间:2018-08-06

汉语普通话双音子和三音子结构系统以及相关语料库的设计_第1页
汉语普通话双音子和三音子结构系统以及相关语料库的设计_第2页
汉语普通话双音子和三音子结构系统以及相关语料库的设计_第3页
汉语普通话双音子和三音子结构系统以及相关语料库的设计_第4页
汉语普通话双音子和三音子结构系统以及相关语料库的设计_第5页
资源描述:

《汉语普通话双音子和三音子结构系统以及相关语料库的设计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、汉语普通话双音子和三音子结构系统以及相关语料库的设计摘要自然语音处理最感头疼的问题,就是难以对付连续话语中复杂的语音变化.语音学界和言语工程学界经过长期的探索发现,双音子和三音子是比较理想的、能够较好地覆盖各崐种语音变化现象的处理单元.所以,在语音合成和语音识别中,特别是在波形拼接合成方崐面已经得到广泛的应用.但是,在国内,人们尚不十分熟悉它们.本文将扼要地介绍这些概崐念,并概括描写汉语普通话的双音子和三音子结构系统及相关语料库的设计.1.0综述当前,言语的合成和识别都已进入连续话语的阶段,而影响合成音质和识别率提高的拦路虎就是语音的多变性问题

2、.因为自然话语并不是各种语音单位诸如音素或音节的简单机械的串列,而是按照一定语音结合和变化规则构成的有机体系.在这个体系里,各相邻语音单元之间由于协同发音(coarticulation)作用而彼此渗透,在空间和时间域里形成了相互套叠(telescopeoroverlap)的局面(Zsiga,1994;Wood,1991),其中相互叠接的部分叫做音联(juncture)(许毅,1989),它通常都是对应于一个声学上极其易变的区域.不同语音单元之间的音联既是它们相互连接和分界的表现,又是体现它们随环境而变化的实体.正是这个部分给自然言语处理带来了极

3、大的困难.所以,无论是合成还是识别方面,都迫切希望能够定量地获得这种音联的规律及相关的模式.然而,无论从哪个角度看,目前尚未达到能够控制对应于这种语音变化的所有参量的水准.在这种情况下,基于语料库的统计研究方法被广泛采用,语料库的价值已经获得广泛的认可.而且,国际上还创立了语料库建设的协调组织(COCOSDA).那么,就合成和识别而言,语料库究竟怎样选取言语样本才能够全面覆盖上述音联现象呢?我们认为,这同合成和识别的单元选择密切相关.长期以来,人们在合成和识别的单元选择方面下了不少功夫.起初,音位或音素被认为是最合适的处理单元.因为在任何语言里

4、,音位的数目总是相当有限的,以它们作单元最为经济.但是,实践证明,假如采用音位作为拼接合成的单元,合成言语的音质低劣,就是加上音位变体也还是不行.一个主要的原因就在于无法含盖音位边界上那个声学上易变区域的特性.同样,音位也不适宜用作连续话语识别的单元.因为在连续话语里,音位之间相互叠接,彼此的界限不分明,这样的单元在信号处理上是很难定位、很难进行自动切分的.为了解决这个问题,有的系统就采用较大的言语单位如音节或词作为处理单元.尽管同音位相比,音节和词是相对稳定的语音单位,但是,类似于音位方面的问题在这里依然存在.因为至少在音节或词的边界上,仍然

5、存在相邻音位之间的音联问题,因而每个音节或词在语流中也是随环境而变的.如果要用它们来生成连续话语或者以它们作为识别单元的话,那么,所需的语料库就必须存储每个音节和词的所有可能的环境变体.显然,这在实际上是很难做到的,更不用说怎样满足无限词汇的话语生成和大词汇量、非特定人、连续话语识别的需要了.即使在有限词汇的小型系统中可以采用这种方法建库的话,其中也必然包含大量不必要的存储消耗,因为各个环境变体无法共享语料.于是,言语工程方面又转向某些低于词(subword)的、甚至次音位(subphoneme)的探索.终于发现,半音节或双音子和三音子大小的单

6、元是能够覆盖言语中音联现象、便于建立协同发音模型的、比较理想的语音处理单元(Lee,1990).引进随环境而定的音子的概念开创了一个建立低于词的模型的新方法.所谓音子(phone),是语音之间在声学上连贯的、粘着的部分,它对应于声学上的音段(Keller,1995).它跟音位或音素不同.音位是区别性的语音,对应于听觉上的音段.通常,声学上的音段多于听觉上的音段.例如,汉语的音节"八"在听感上是由/b/和/a/两个区别性的音段构成的;然而,在声学上,则除了/b/和/a/以外,在它们之间还存在着音联,即那个由于协同发音而产生的过渡音段,这些在声学上

7、就叫作音子.它们虽然不是区别性的语音,但却是自然言语中普遍存在的、语音处理上难于回避的语音现象.双音子(diphone)通常是由一个语音单元的末尾部分跟下一个单元的开头部分构成的,它可以当做相邻语音音段之间的过渡音来用(Klatt,1987;Olive&Spickenagel,1976).三音子(triphone)是另一种理想的声学音段,它考虑了一个音位或音素左右两方面的语音环境(Lee,1990),通常包括这个音素与它的左邻音素之间的过渡段、这个音素本身以及它跟右邻音素之间的过渡段.作为一种声学音段,双音子已经在合成和识别中、尤其是在拼接式(

8、concatinative)合成系统中得到广泛运用(Bhaskararaoetal,1991;Levre,1986),因为这种音段能够捕获语音的所有瞬

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。