基于语音的多媒体场景标记辅助系统

基于语音的多媒体场景标记辅助系统

ID:32468721

大小:1.39 MB

页数:59页

时间:2019-02-06

基于语音的多媒体场景标记辅助系统_第1页
基于语音的多媒体场景标记辅助系统_第2页
基于语音的多媒体场景标记辅助系统_第3页
基于语音的多媒体场景标记辅助系统_第4页
基于语音的多媒体场景标记辅助系统_第5页
资源描述:

《基于语音的多媒体场景标记辅助系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、海大学颂lj学位论文摘要标引的目的是通过给音频一视频数据加入标记,对其内容进行描述,以便于信息的检索和查询。语音标引在媒体资产管理中扮演了很重要的角色。本文介绍了一种基于语音识别的多媒体场景标记辅助系统,该系统可自动识别标引员所说的短语,辅助标引员在视频媒体上实现标引。系统从语句中将这些短语分割出来,通过EBF神经网络进行建模。实验结果证明,该系统性能良好且具有实用性,在媒体资产管理方面有广阔的应用前景。本文主要内容是基于语音关键词识别技术的语音标引系统的研究与实现,提供了一个性能优良的语音识别引擎,通过系统测试,标引正确率达到91.

2、3%。并以此引擎为基础,开发了面向广电体育节目编辑系统的语音标引平台。本文的工作主要集中在以下几个方面:第一,基于神经网络语言模型的识别网络构建。挑选出体育足球节目常用的一些关键词语构建一个与该关键词唯一对应的识别网络,在此识别网络的基础上进行关键词的识别。第二,将自适应加权融合算法应用于最后标引系统输出决策。对于用不同特征得到的识别结果,采用自适应加权融合的算法进行融合,经过此步骤处理的决策系统可以显著提高标引结果的正确率。第三,语音标引系统的实现。本文从系统设计到实现,提供了一个高扩展性能的语音识别引擎,它是针对汉语特定人关键词语

3、音检索应用而开发的,能实现一个面向体育节目的语音检索平台,能够检索包含指定汉语关键词的wAVE格式文件,实验证明通过使用以上方法,系统能够获得良好的性能。关键词:媒体资产管理;语音标引;EBF网络;数据融合V海人掌顿_}:学位论文ABSTRACTThemainobjectiveoftheindexingprocessistoassignlabelstotheaudio·visualdatainordertodescribeitscontent.Audioindexmgplaysakeyroleinthisprocess.Inthisp

4、aper,aspeech.basedman-machinelabelaidedsystemformediaassetmanagementispresented.ThesystemrecogIlizesmephrasesspokenbytllehumanannotatorautomaticallyandassistshimtomarkupshotsofsubjectsinvideomedia,Thosephrasesaresegmented厅omshortsentencesandmodeledbytheellipticalbasisfu

5、nction(EBF)net、Ⅳorks.ExperimemalresultsindicatematuleSpeech-basedlabelaidedsystemispracticaland}lasgreatpmmiseformediaassetmaIlagement.ThispaperismainlyfocusonthesystemdeVelopmentinkeywordspotcingarldindexing.1tproVidedanexcellentkey、Vordspottingengine.Itdevelopedsomene

6、wmethodsaIldalgori伽msinkc”Ⅳordsponinginthefleldofsportsvideostoac上lieVeahi曲detectionrate.Themainworkisasfollows:1.TheconstnJctionofrecognitionnetⅥ,orkforrecognitionenginebasedonANNmodel.W毫tI豇neda11ANNmodelwilhsomekeywordsoften2Kevwords:usedinsportsVideo.Thekeywordrecogn

7、itionisbasedontherecognitionnetwork.WbachievedgoodperfIormancewimthe印plicationofadaptiveweighteddata如sionalgori吐lrIlusedintheoutputdecision.ThedeVelopmeInofspeechlabelsystem.ncanfindtheⅥ,AvEfileswhichcontainthepronunciationofspecifiedkeywords.ItisaVocabularyChinesekeywo

8、rdspottingaIldinde姬ngsystem埘廿1anacceptableperfbHnance.mediaassetmanagement;speech-basedlabel;EBFneuralnetwork;

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。