基于内容的音频信息检索课件

基于内容的音频信息检索课件

ID:15488632

大小:1.08 MB

页数:58页

时间:2018-08-03

基于内容的音频信息检索课件_第1页
基于内容的音频信息检索课件_第2页
基于内容的音频信息检索课件_第3页
基于内容的音频信息检索课件_第4页
基于内容的音频信息检索课件_第5页
资源描述:

《基于内容的音频信息检索课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于内容的音频信息检索武港山Tel:83594243Office:蒙民伟楼608BEmail:gswu@nju.edu.cn2021/6/24WuGangshan:ModernInformationRetrieval2Contents概述查询方式语音检索音频检索音乐检索2021/6/24WuGangshan:ModernInformationRetrieval31音频检索概述音频是多媒体中的一种重要媒体。我们能够听见的音频频率范围是60Hz~20kHz。其中语音大约分布在300Hz~4kHz之内,而音乐和其他自然声响是全范围分布的。声音经过模拟设备记录

2、或再生,成为模拟音频,再经数字化成为数字音频。数字化时的采样率必须高于信号带宽的2倍,才能正确恢复信号。样本可用8位或16位比特表示。2021/6/24WuGangshan:ModernInformationRetrieval41音频检索概述音频是声音信号的表示形式,作为一种信息载体,音频可以分为三种类型:波形声音对模拟声音数字化而得到的数字音频信号。它可以代表语音、音乐、自然界和合成的声响。语音具有字词、语法等语素,是一种高度抽象的概念交流媒体。语音经过识别可以转换为文本。文本是语音的一种脚本形式。音乐具有节奏、旋律或和声等要素,是人声或/和乐器音响

3、等配合所构成的一种声音。音乐可以用乐谱来表示。2021/6/24WuGangshan:ModernInformationRetrieval5音频信息的特征不同类型的声音具有不同的内在内容。人们感受到的内容不同。但从整体看,音频内容分为三个级别:最低层的物理样本级、中间层的声学特征级和最高层的语义级,如下图所示。从低级到高级,其内容逐级抽象,内容的表示逐级概括。2021/6/24WuGangshan:ModernInformationRetrieval6音频信息的特征音乐叙事、音频对象描述、语音识别文本、事件……感知特征:音调、音高;旋律、节奏…声学特征

4、:能量、过零率、LPC系数…音频结构化表示采样率、时间刻度样本、格式、编码……语义特征级物理特征级样本数据级模糊匹配(基于内容的检索)严格匹配2021/6/24WuGangshan:ModernInformationRetrieval7级别特征显式表示可否用于检索物理级声学级语义级音频信息的特征取样频率、量化精度、编码方法、声道数目、时间刻度信息(时:分:秒:帧)...音量、音高、音域、音色、….如一段语音的中心思想、包含的关键词、类型等,一段音乐的旋律、情绪、主题等...是否否少部分部分全部2021/6/24WuGangshan:ModernInfo

5、rmationRetrieval81音频检索概述基于人工输入的属性和描述来进行音频检索是容易首先想到的方法。该方法的主要缺点反映在:当数据量越来越多时,人工的注释强度加大;人对音频的感知,如音乐的旋律、音调、音质等,难以用文字注释表达清楚。这些正是基于内容的音频检索需要研究和解决的问题。但同时应该注意到音频检索可以利用的一个优势,那就是语音是一种特殊类型的音频,它与文本可以互相转换,因此,可以利用文本检索技术进行概念检索。2021/6/24WuGangshan:ModernInformationRetrieval9基于内容的音频检索What?从声学特征

6、和语义特征进行音频信息的检索称为基于内容的音频检索。困难:1数字音频是一种不透明的位流,它不显式地包含可识别或可比较的语义实体;2人工输入音频数据的属性和内容描述,工作量极大,注释的准确性依赖于人的水平、经验和工作态度;3人对音频信息(特别是音乐)的感知,如音乐的旋律、音调、音质等,难以用文字表达清楚。2021/6/24WuGangshan:ModernInformationRetrieval102、查询方式:需求检索包含特定内容的一段讲话(计算机,互连网,多媒体技术...)检索指定说话人的一段讲话检索指定类型的一段音频(音乐、歌曲、报告、谈话...)

7、检索指定旋律的一段音乐检索指定乐器演奏的一段音乐2021/6/24WuGangshan:ModernInformationRetrieval112、查询方式:用户表达示例方式(byexample)也称为拟声方式(onomatopoeia)。用户使用一个声音例子表达其检索要求,查找出与该声音相似的所有声音。例如:用户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声检索与飞机的轰鸣声相似的所有声音。直喻(simile)方式。通过选择一些声学/感知特性来描述检索要求,如音色、音调等。2021/6/24WuGangshan:ModernInformationRetriev

8、al122、查询方式:用户表达主观特征方式。用描述语言来描述声音,如寻找“欢快”的声音。这需要

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。