基于隐马尔可夫模型的音频自动分类

基于隐马尔可夫模型的音频自动分类

ID:33505256

大小:222.06 KB

页数:5页

时间:2019-02-26

基于隐马尔可夫模型的音频自动分类_第1页
基于隐马尔可夫模型的音频自动分类_第2页
基于隐马尔可夫模型的音频自动分类_第3页
基于隐马尔可夫模型的音频自动分类_第4页
基于隐马尔可夫模型的音频自动分类_第5页
资源描述:

《基于隐马尔可夫模型的音频自动分类》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1000-9825/2002/13(08)1593-05©2002JournalofSoftware软件学报Vol.13,No.8基于隐马尔可夫模型的音频自动分类Ã卢坚,陈毅松,孙正兴,张福炎(南京大学计算机科学与技术系,江苏南京210093);(南京大学计算机软件新技术国家重点实验室,江苏南京210093)E-mail:jlu@graphics.nju.edu.cnhttp://www.nju.edu.cn摘要:音频的自动分类,尤其是语音和音乐的分类,是提取音频结构和内容语义的重要手段之一,它在基于内容的音频检索

2、、视频的检索和摘要以及语音文档检索等领域都有重大的应用价值.由于隐马尔可夫模型能够很好地刻画音频信号的时间统计特性,因此,提出一种基于隐马尔可夫模型的音频分类算法,用于语音、音乐以及它们的混合声音的分类.实验结果表明,隐马尔可夫模型的音频分类性能较好,最优分类精度达到90.28%.关键词:基于内容的音频分类;隐马尔可夫模型;向量量化;MFCC(mel-frequencycepstralcoefficient)中图法分类号:TP391文献标识码:A音频压缩和Internet媒体流(mediastreaming)技术的

3、发展,推动着各种基于Internet的音频应用逐步走向实用.但是,由于原始音频数据除了含有采样频率、量化精度、编码方法等有限的注册信息外,本身仅仅是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,因而音频的检索和内容过滤等应用都受到极大的限制.如何提取音频中的结构化信息和内容语义,使得无序的音频数据变得有序,是基于内容的音频检索技术能否得以实用的关键所在.音频自动分类的早期研究工作以文献[1,2]为代表.文献[1]训练一种神经元网络直接将声音类别映射到所标注的文本.文献[2]使用自组织映射

4、(self-organizingmapping,简称SOM)聚类算法对具有相似感觉特征的声音[3]进行聚类.真正意义上的基于内容的音频自动分类工作是由美国MuscleFish公司ErlingWold等人完成的,他们详细分析了音频的区别性特征,包括响度(loudness)、音调(pitch)、亮度(brightness)、谐度(harmonicity)等,并且根据最近邻准则(nearestneighbor,简称NN)和Mahalanobis距离设计音频的分类器,所用的数据集包括笑声、铃声、电话声等16类共409个样本

5、数据.在文献[3]提供的MuscleFish数据集上,文献[4~6]采用不同的特征和分类器实现音频的分类.其中,文献[4]采用12阶的MFCC系数和能量作为音频的特征表示,根据极大互信息准则(maximummutualinformation,简称MMI)训练决策树量化特征空间为离散的区域,并且根据最近邻准则对音频作分类,文献[5,6]分别采用最近特征线(nearestfeatureline,简称NFL)和支持向量机(supportvectormachine,简称SVM)作为分类器.近年来,音频的自动分类在视频的检索

6、和摘要、基于内容的语音检索等相关领域也日益引起了人们的重视.在视频的检索和摘要中,人们发现简单的视觉特征,例如颜色、纹理、运动向量等并不能很好地反映视频的内容和结构语义,而更高级的视觉语义特征的提取则相当困难,因此,文献[7~9]尝试在视频的检索和摘要中结合音频(语音、音乐)、文本(字幕、标题)等信息,以克服单纯的视觉特征语义表达能力较弱这一缺点.文献[10,11]Ã收稿日期:2001-02-13;修改日期:2001-05-22基金项目:国家自然科学基金资助项目(69903006,60073030)作者简介:卢坚(

7、1974-),男,浙江东阳人,博士,主要研究领域为音频的分割,分类和检索;陈毅松(1973-),男,四川资阳人,博士,主要研究领域为图像压缩;孙正兴(1964-),男,江苏苏州人,博士,副教授,主要研究领域为CAD/CAM,数字图书馆;张福炎(1939-),男,浙江绍兴人,教授,博士生导师,主要研究领域为多媒体技术,数字图书馆.1594JournalofSoftware软件学报2002,13(8)根据音频特征分别训练OCON(one-class-in-one-network)神经元网络和隐马尔可夫模型(hidden

8、Markovmodel,简称HMM)对电视节目作5种视频场景的分类:天气预报、新闻、广告、足球和篮球.文献[12]采用相位补偿gamma滤波器组提取音频特征,并用于音频的分割、音乐内容的分析、暴力镜头的检测等方面.基于内容的语音检索机制有关键词发现(keywordspotting)、子词格(sub-wordlattice)索引和大词汇量连续语音识别3种形式[

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。