谷歌在Kaggle发布了一项地标检索挑战赛.doc

谷歌在Kaggle发布了一项地标检索挑战赛.doc

ID:28144287

大小:208.50 KB

页数:8页

时间:2018-12-08

谷歌在Kaggle发布了一项地标检索挑战赛.doc_第1页
谷歌在Kaggle发布了一项地标检索挑战赛.doc_第2页
谷歌在Kaggle发布了一项地标检索挑战赛.doc_第3页
谷歌在Kaggle发布了一项地标检索挑战赛.doc_第4页
谷歌在Kaggle发布了一项地标检索挑战赛.doc_第5页
资源描述:

《谷歌在Kaggle发布了一项地标检索挑战赛.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、谷歌在Kaggle发布了一项地标检索挑战赛  图像检索是计算机视觉领域的基础问题,对于包含地标的图像更是非常重要,因为这是用户拍摄的热门对象。本次挑战赛的数据集是世界最大的图像检索数据集,其中有超过一百万张图像,覆盖了全球1.5万个不同景点。  同时,这项挑战赛也是CVPR2018的地标辨认研讨会的一部分。下面就是本次竞赛排名第一的解决方案,参赛队伍是由anokas带领的团队,论智对其进行了编译。    解决方案包括两个主要元素:  首先,创建一个高性能的全局描述符(globaldescriptor),它可以将数据库中的图像用奇异向量表示; 

2、 然后,创建一个高效的框架,能将这些向量和最可能的图片联系起来,最后提交到积分榜上。  下面是总体框架的流程图,其中每一步应用后都有对应的LB分数。    注:下文中所有分数都以百分数表示,即62.5%=0.625  方案详细讲解  全局描述符(GlobalDescriptors)  我们的方案中最主要的部分就是几个全局描述符,这些向量描述了图片的全部内容。我们从两个预训练的CNN模型开始(ResNet和ResNeXt),并用四种目前最先进的集结方法(aggregationmethods)生成全局描述符。下面是四种集结方法各自的细节以及它们“

3、原始”的表现性能(也就是没有进行检索词扩展和数据库扩展):  基于区域熵的多层抽象池化(REMAP)[42.8%mAP]:我们之前设计的一个全局描述符聚合了不同CNN层的深度特征,之后经过训练可以表示多个水平的可视化抽象对象。我们将在之后的CVPR研讨会上进一步展示REMAP的细节架构。  最大卷积激活值(MAC)[32.9%mAP]:MAC描述符将每个CNN的最后一层卷积过滤的最大局部回应进行编码。在它的架构中,ResNeXt的最后一个卷积层后面有一个最大池化层、L2-正则化层和PCA+白化层。  卷积的池化和(SPoC)[31.7%mAP

4、]:在SPoC这一过程中,ResNeXt的最后一个卷积层后接池化和层、L2-正则化层和PCA+白化层。  卷积的区域最大激活值(RMAC)[34.7%mAP]:在RMAC中,ResNeXt最后的卷积特征是在多个规模重叠区域中进行的最大池化。这些区域同样是基于有L2-正则化层和PCA+白化层的描述符。最后把所有描述符汇总到一个单一的描述符中。  基础的CNN网络(ResNet和ResNeXt)是在ImageNet上进行的训练,之后再一个地标数据集的子集中进行调整。该子集来自Babenko等人的研究成果,其中包括大约12万张图片和650个著名景点

5、。  这一数据集中的图像最初是在图片搜索引擎中用文字搜到的,没有经过检验,所以其中可能含有很多不相关的图片,这需要我们过滤掉。删除图片的过程是半自动的,利用带有密集SIFT特征的Hessian-affine检测器以及RVD-W描述符进行聚合。处理完图像后,还剩下25000张左右的图片,都属于一种地标,我们想用它对模型进行调整。  我们没有用其他类似竞赛中的数据集作为训练数据,因为我们想看看在新的数据集下,我们的方案生成的效果如何。  合并描述符  通过用上述方法训练的六个全局描述符合并,就得到了最终的全局描述符(括号中的是LB分数):  Re

6、sNeXt+REMAP(42.8%)  ResNeXt+RMAC(34.7%)  ResNeXt+MAC(32.9%)  ResNeXt+SPoC(31.7%)  ResNet+REMAP(35.8%)  ResNet+MAC(30.4%)  接着我们将每个描述符缩放到固定的L2norm上,为每个描述符分配权重,按以下方式连接描述符:  XG=[2×ResNeXt+REMAP;1.5×ResNeXt+RMAC;1.5×ResNeXt+MAC;1.5×ResNeXt+SPoC;ResNet+MAC;ResNet+REMAP]  权重的选择是点对

7、点的,以反映每种方法相应的性能。之后,我们用PCA将描述符的维度降到4K,同时应用白化,让所有维度的方差相同。虽然PCA和白化只能改善一小部分,但是它将查询扩展的结果提升了几个百分点。  最近邻搜索  创建好描述符后,每张图片都由一个4096维的描述符表示。接下来,我们用复杂的k-最近邻搜索找到每张图前2500个近邻和L2距离。这一阶段提交每张图片的前100个最近邻得到了47.2%的分数。  这一步骤使用优化过的NumPy代码实现,用了2小时对每个1.2M的图片找出了前2500个最近邻。  数据库增强  接下来要做的是数据库增强(DBA),即

8、把数据库中每张图片的描述符换成它本身和前10个最近邻的加权结合。目的就是利用它们近邻的特征提高图像表示的质量。更准确的是,我们进行描述符的加权求和,其中权重按以下代

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。