欢迎来到天天文库
浏览记录
ID:28142435
大小:528.50 KB
页数:8页
时间:2018-12-08
《讲解CNN+RNN的各种组合方式,以及CNN和RNN的对比.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、讲解CNN+RNN的各种组合方式,以及CNN和RNN的对比 一、前述 CNN和RNN几乎占据着深度学习的半壁江山,所以本文将着重讲解CNN+RNN的各种组合方式,以及CNN和RNN的对比。 二、CNN与RNN对比 1、CNN卷积神经网络与RNN递归神经网络直观图 2、相同点: 2.1.传统神经网络的扩展。 2.2.前向计算产生结果,反向计算模型更新。 2.3.每层神经网络横向可以多个神经元共存,纵向可以有多层神经网络连接。 3、不同点 3.1.CNN空间扩展,神经元与特征卷积;RNN时间扩展,神经元与多个时间输出计算 3.2.RNN可以用于描述时间上连续
2、状态的输出,有记忆功能,CNN用于静态输出 3.3.CNN高级100+深度,RNN深度有限 三、CNN+RNN组合方式 1.CNN特征提取,用于RNN语句生成图片标注。 2.RNN特征提取用于CNN内容分类视频分类。 3.CNN特征提取用于对话问答图片问答。 四、具体应用 1、图片标注 基本思路 目标是产生标注的语句,是一个语句生成的任务,LSTM?描述的对象大量图像信息,图像信息表达,CNN?CNN网络中全连接层特征描述图片,特征与LSTM输入结合。 具体步骤: 1.1模型设计-特征提取全连接层特征用来描述原图片LSTM输入:word+图片特征
3、;输出下一word。 1.2模型设计-数据准备 1.图片CNN特征提取2.图片标注生成Word2Vect向量3.生成训练数据:图片特征+第n单词向量:第n+1单词向量。 1.3模型训练: 1.运用迁移学习,CNN特征,语句特征应用已有模型2.最终的输出模型是LSTM,训练过程的参数设定:梯度上限(gradientclipping),学习率调整(adaptivelearning)3.训练时间很长。 1.4模型运行: 1.CNN特征提取2.CNN特征+语句开头,单词逐个预测 2、视频行为识别: 视频中在发生什么? 2.1常用方法总结: RNN用于CNN
4、特征融合1.CNN特征提取2.LSTM判断3.多次识别结果分析。 不同的特征不同输出。 或者:所有特征作为一个输出。 2.2RNN用于CNN特征筛选+融合: 1.并不是所有的视频图像包含确定分类信息2.RNN用于确定哪些frame是有用的3.对有用的图像特征融合。 2.3RNN用于,目标检测: 1.CNN直接产生目标候选区2.LSTM对产生候选区融合(相邻时刻位置近似)3.确定最终的精确位置。 2.4多种模型综合: 竞赛/应用中,为了产生最好结果,多采用多模型ensemble形式。 3、图片/视频问答 3.1问题种类 3.2图片问答意义
5、 1.是对纯文本语言问答系统的扩展2.图片理解和语言处理的深度融合3.提高人工智能应用范围-观察,思考,表达
此文档下载收益归作者所有