基于多模态信息的新闻视频内容分析技术研究

基于多模态信息的新闻视频内容分析技术研究

ID:33101676

大小:12.98 MB

页数:145页

时间:2019-02-20

基于多模态信息的新闻视频内容分析技术研究_第1页
基于多模态信息的新闻视频内容分析技术研究_第2页
基于多模态信息的新闻视频内容分析技术研究_第3页
基于多模态信息的新闻视频内容分析技术研究_第4页
基于多模态信息的新闻视频内容分析技术研究_第5页
资源描述:

《基于多模态信息的新闻视频内容分析技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、一Y1531§5S⑧天謦大謦博士P-位论文_¨Ⅲ㈣mⅧ●l1————一一级学科:堕皇皇塑堕三堡学科专业:焦呈皇焦星塾堡作者姓名:冀生指导教师:堂壹里塾塑天津大学研究生院2007年12月frl[1lllll[rlr[iJr=r[Jrlr[rflliJi'rlfllr,rllI、t1531935基于多模态信息的新闻视频内容分析技术研究ResearchonNewsVideoContentAnalysisBasedonMultimodalityInformation一级学科学科专业作者姓名指导教师信息与通信工程信号与信息处理冀中张春田教授

2、天津大学电子信息工程学院二零零七年十二月中文摘要对视频数据的有效处理、浏览、检索和管理正伴随着视频数据的快速增长而成为亟待解决的现实问题。视频内容分析技术旨在将非结构化的视频数据结构化,并提取其中的语义内容,构建低层特征到高层语义之间的桥梁,最终建立视频的摘要、索引和检索等应用系统,提供给用户方便的视频内容获取方式。本论文以新闻视频为研究对象,以音频、字幕、视觉等多模态信息及其有效融合为研究手段,以模式识别理论中的相关模型为工具,对视频内容分析技术展开了较为深入的研究。主要贡献包括以下三个方面:(1)提出了一种新颖的基于MPEG压

3、缩域的主持人镜头快速检测算法。其中,在预处理部分,引入了一种改进的利用压缩域信息检测人脸的方法;在镜头聚类部分,构造了一个新颖的度量特征量对主持人镜头采用系统聚类法进行聚类,并用模糊C均值聚类法解决了聚类过程中自适应阈值确定的问题。该算法在保持较高检测性能的前提下提高了主持人镜头的检测速度。(2)提出了一种基于决策树的镜头分类算法,将新闻视频镜头依次分为广告、“其他”、静态图像、主持人、记者和独自六类。其中广告、“其他”和静态图像三类分别利用黑帧、运动、时间以及人脸等特征进行检测;主持人镜头采用聚类方法进行检测;对于比较难区分的记

4、者和独白镜头,创新性地将它们的检测转换为文本序列标注的问题,并采用条件随机场进行建模。该算法有效地融合了音频、人脸以及上下文等多模态信息,对新闻视频中重要的镜头进行了区分,并取得了较好的分类结果。(3)提出了一种融合音频、字幕以及视觉等多模态信息的新闻故事单元分割算法。创新性地将字幕变化、音频类型以及镜头类型等高层次内容特征联系起来共同处理,巧妙地将新闻镜头序列转换成为多个关键词序列,使新闻故事单元分割问题转换成为文本序列分割的问题。该算法采用条件随机场进行建模,充分利用了每个序列内以及序列之间的上下文信息,得到了较好的分割性能。

5、此外,论文还综述了视频内容分析技术,构造了一个基于规则和隐马尔可夫模型的分层音频分类方法,实现了一个较完整的新闻视频中字幕提取框架,最终设计并实现了一个基于COM架构的视频内容分析与摘要系统。综上所述,本论文分别从音频、字幕、视觉以及它们之间的有效融合等方面对新闻视频进行了基于内容的分析,实验结果证明了这些算法的有效性。关键词:新闻视频视频内容分析主持人镜头检测视频镜头分类新闻故事单元分割字幕提取多模态信息融合ABSTRACTSemanticvideomanagement,includingvideobrowsing,indexi

6、ngandretrieval,isnecessaryfortheeffectiveutilizationofvideorepositories.Videocontentanalysistechnologyaimstobridgethesemanticgapbetweenlow·levelfeaturesandhigh—levelconcepts,andtOprovideanaccessiblewaytoorganizeandmanagevideodata.Inthisdissertation,researcheffortsarec

7、oncentratedonaudio,captionandvisualcontentanalysisandmuitimodalityinformationfusiontechniquesfornewsvideowithpattemrecognitionmodels.Thethreemaincontributionsareasfollows:(1)AnovelanchorpersonshotdetectionalgorithminMPEGdomainisproposed,inwhichanimprovedfacedetectionm

8、ethodincompresseddomainandanewdissimilaritymetricforclusteringarepresented.Theproposedalgorithmiseffectiveandcomputationally

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。