基于异构信息双向传播网络视频分类方法

基于异构信息双向传播网络视频分类方法

ID:5996724

大小:33.00 KB

页数:9页

时间:2017-12-30

基于异构信息双向传播网络视频分类方法_第1页
基于异构信息双向传播网络视频分类方法_第2页
基于异构信息双向传播网络视频分类方法_第3页
基于异构信息双向传播网络视频分类方法_第4页
基于异构信息双向传播网络视频分类方法_第5页
资源描述:

《基于异构信息双向传播网络视频分类方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于异构信息双向传播网络视频分类方法  摘要:针对以往大多数网络视频分类研究只将文本和视觉特征进行简单融合的问题,提出了基于异构信息双向传播的网络视频分类方法。首先基于K均值方法将视频关键帧聚类成多个簇,在帧层次上对视频数据进行建模;将每个簇中代表性关键帧的文本信息传播至该簇作为其文本解释,完成从文本至视觉模态的传播;对每个关键帧,将其对应簇的文本解释传播至该关键帧,完成从视觉至文本模态的传播;最后基于支持向量机(SVM)对网络视频进行分类。在信息的双重传播中两类异构数据得到了密切的融合。实验结果表明该方法有效地提高了网络视频分类的准确率。关键

2、词:网络视频分类;异构数据;视觉模态;文本模态;双向传播中图分类号:TP391.4文献标志码:A0引言9网络视频已成为互联网上一类重要的数据,主要有三个特点:1)数据规模大;2)异构信息并存,如标题和评论等文本,以及视频本身的音频和视频信息;3)多为无标记数据。对网络视频内容进行分类对于网络内容推荐和检索等应用具有重要意义[1]。因此,综合利用视觉、文本等异构信息进行网络视频分类非常必要。网络视频短文本信息具有稀疏性的特点,并且视觉信息在视觉层次上无法自动地对其进行文本语义解释,文本和视觉之间具有较大的语义鸿沟,已有的研究还未能在二者之间建立起

3、密切有效的联系。目前很多研究[2-9]从文本信息、视觉信息出发进行分类。Yang等[2]基于视觉特征、语义特征、音频特征及附加文本等信息进行分类,结果表明多模态分类结果优于单模态,并且支持向量机(SupportVectorMachine,SVM)效果最好;Cui等[3]抽取训练集上的视觉特征用来辅助文本信息中词语相似度的计算;Zhang等[4]使用语义概念模型进行特征定义,利用文本蕴含的语义信息提高了分类性能,并使用增量式SVM进行分类,但计算过程较为复杂;Wu等[5]为利用好数据之间的关系,综合使用了网络视频的标题与标签、相关视频信息、视频上

4、传者个人兴趣等三方面信息来提高分类性能;Chen等[6]使用了维基百科返回的结果来辅助网络视频分类;Leung等[7]从视频的文本评论出发,将文本进行聚类,发掘聚类结果中每个簇的语意,从而获得网络视频舆情。9以上工作有如下共同点:1)从样本的视觉和文本模态分别单独处理,而后将处理结果进行简单融合,没有充分利用文本信息和视觉信息的对应关系;2)将每个视频包含关键帧通过计算均值和方差转化为单个向量,也即采用单高斯分布来进行建模,这样难以准确反映关键帧在高维视觉空间的分布情况,导致大量视觉信息丢失。由于一个视频通常包含了多个镜头,帧的分布一般为多峰,

5、所以采用一个包含均值和方差的向量来表示一个视频样本是不够的。此外,文本信息和很多视频帧之间具有密切的关系,譬如在标题中的“football”和帧中出现的大片绿色场地常常共存。所以从帧层次上进行建模,并将文本信息和帧的视觉信息进行密切结合对于网络视频分类具有重要帮助。基于上述问题,本文提出了一种新的网络视频分类方法。该方法在帧层次上对视频数据进行建模,并进行了视觉和文本模态之间的双向信息传播,包括以下环节:1)对训练集中视频样本的关键帧进行K均值聚类[10],将关键帧在视觉空间中聚为多个簇;2)对每个簇,按照分布规律选择代表性关键帧,将其重要文本

6、信息作为该簇的文本解释,完成从文本模态至视觉模态的传播;3)对每一个关键帧样本,确定其所在的簇,将该簇的文本解释传递至该关键帧,完成从视觉模态至文本模态的传播;4)基于网络视频对应的文本数据和SVM分类器进行分类。该方法的优点在于从帧层次上对视频进行建模,以视觉特征空间中样本的分布结构作为媒介,将部分代表性关键帧的文本信息传播至其他关键帧,在信息传播中密切融合了视觉模态和文本模态的信息。1网络视频分类框架9基于文本模态和视觉模态双向传播的网络视频分类方法包括以下四个环节:1)在视觉模态上对网络视频进行帧层次上的建模,采用K均值聚类方法将所有关键

7、帧聚为视觉特征空间中的多个簇,分析簇中的各类别的纯度;2)从每个簇中选取若干代表性关键帧,使用关键帧所在视频的关联文本来对视觉特征空间中的簇作文本语义解释,完成从文本到视觉模态的信息传播;3)将簇的文本语义解释传播至该簇中关键帧的关联文本信息中,将关键帧关联文本信息融合成对应视频样本的文本信息,完成从视觉模态到传播;4)采用tfidf方法来表示上述环节得到的文本数据,并以此为特征采用支持向量机对网络视频数据进行分类。9从实验结果来看,200个簇中最大占比超过50%的簇的数目占总簇数的71.75%,最大占比超过70%的簇的数目占总簇数的59%,这

8、表明大部分簇中会有一个类别的数据占有主导地位。通常来说,每个簇中的关键帧所属的类别越单一(或者某个类别关键帧的比例越高),聚类结果对分类越能起到好的作

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。