基于音频的数字媒体内容分析及其可视化

ID：38113497

大小：1.04 MB

页数：6页

时间：2019-05-25

资源描述：

《基于音频的数字媒体内容分析及其可视化》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、第卷第期燕山大学学报年月文章编号：1007-791X(2010)02-0100-06基于音频的数字媒体内容分析及其可视化张田，李嵩，高畅，邱荣发，李海峰（哈尔滨工业大学计算机科学与技术学院，黑龙江哈尔滨）摘要：为了对音视频内容进行更加有效地分析，将信息可视化方法引入数字媒体信息处理领域。设计并实现了集多媒体信号采集、大词表连续语音识别、文本检索和音频检索为一身的多媒体内容可视化分析平台，取得了较理想的效果，充实了信息可视化理论并对其具体应用进行了有益尝试。关键词：数字媒体内容；信息可视化；语音识别；文本

2、检索；音频检索中图分类号：TP391.4文献标识码：A似杂乱无章的海量数据中隐藏的特征、模式或趋势引言展现出来，为进一步科学研究等提供可靠信息呢？随着多媒体制作、剪辑、传播技术，计算机技信息可视化正是这样术以及网络技术的发展，数字媒体数量急剧增长，一门科学，它是一种在计算机上采用图形方式体现使得对其内容进行分析成为了一项日益重要的工抽象数据的方法，从而便于人们利用视觉增强对非作。物理抽象信息的认知，涉及计算机图形学、认知心理学、人机交互技术、图形设计等多个领域。于内容分析是一种客观、系是，结合了信息可视

3、化的内容分析将更加直观和清统、定量地描述交流的明显内容的研究方法。它晰，有助于对内容进行理解和判断。已经有百年发展历史，广泛地应用于新闻传播、图书情报、政治军事、社会学、心理学等领域中，取内容可视化分析支撑技术及实现得了显著的成效。但由于条件限制，过去的内容分析方法主要基于文本信息处理；近年来，随着网络对音频信号的处理一直是信号处理领域的重和多媒体技术的发展，越来越多的信息以图像、音点与难点。对音频信号进行内容分析，除前期预处频和视频的形式进行交流和传播，多媒体信息的复理外，还要将音频分为语音、音乐、噪

4、音等不同类杂特性，使对其进行内容分析的难度和所需要的技型，再根据具体类型进行下一步处理，比如对语音术要比处理文本信息复杂得多。其中，针对音频尤来说，可以将语音信息转化为目前研究已经比较成其是语音的内容分析，由于其包含大量的“直观”熟的文本信息。本文主要针对语音信息进行处理及信息特性，越来越受到研究人员的重视。分析。语音信息与文本信息相比具有很多自身的特点，语音信息的内容分析处理需要综合使用语音处语音信息是人们日常信息交互的最直接、最自理技术和文本分析技术。语音处理技术包括语音压然的方式，但是要实现对语音

5、信息的自动化处理确缩编码、语音识别、说话人识别、语音理解、语音实是长时间以来困绕学术界的难题，因为除了专业合成和语音增强等，在对语音内容的分析处理中又研究人员以外无人能从大量的数据波形中找到可以语音识别技术为核心，包括语音特征提取、声学用信息或知识。如何以更加直观的方法把表面上看收稿日期：基金项目：国家自然科学基金资助项目（）；语言语音教育部微软重点实验室开放基金资助项目（）作者简介：张田（），男，黑龙江哈尔滨人，博士研究生，主要研究方向为语音处理、认知科学方法、信息可视化方法等；通信作者：李海峰（），

6、男，黑龙江哈尔滨人，教授，博士生导师，主要研究方向为语音处理、神经网络、智能信息处理方法等，：。第期张田等基于音频的数字媒体内容分析及其可视化模型与模式匹配（识别算法），以及语法、语义分拟的电视信号实时地通过编码，然后将编码析等。笔者设计并实现的内容可视化分析平台是后的音视频信号通过网络接口储存在计算机中。其基于大词表连续语音识别技术的，在语音识别的中，采用处理器，这是一款基础上将文本分析技术与语音分析技术相结合，再（）公司的针对多媒体领域的加以信息可视化技术，以完成对语音信息的内容可，主频最高可达，这

7、款基于的视化分析。处理器针对音频和视频处理内部集成了丰富的接口，主要包括视频接口、多通道音频串口该平台采用图形用户界面形式，实现，以太网链路层接口等，特别适合了音视频信号采集与转换、大词表连续语音识别、用于多媒体以及网络领域的应用。文本检索、音频检索和内容可视化分析等一系列功能，较完善地满足了内容可视化分析的整体要求。图给出了音视频信号采集系统的模块图。该图给出了平台的整体架构，也表明了其工作流系统主要由外部存储器模块、视频采集模块、音频程：首先通过音视频采集设备对多媒体内容进行采采集模块、网络模块组成

8、。集，并转换为可操作的数字媒体格式，再对音频文）外部存储器模块：使用两片的件提取相应特征，并判断音频流中以句子为单位的用来存放系统运行时的临时数据，使用语段以进行切分，然后根据切分语段的对应特征进片的用来存放系统上电后的加载程序。行说话人识别，接下来根据说话人识别的结果选择）视频采集模块：使用公司的对应说话人的语音识别模型进行大词表连续语音作为高频头将制式的电视信号转识别得到对应文本信息，还可对得到的识别结果进换为模拟的音频和视频信号送给音

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于音频的数字媒体内容分析及其可视化

基于音频的数字媒体内容分析及其可视化

相关文章

相关标签